技能策展人 (Skill Curator) — 自进化引擎
1. 概述
这是整个技能集合的 "元技能"——它不直接完成具体任务,而是让所有其他技能变得更好。本技能对接 Hermes Agent 的 /curator 自学习系统,自动分析任务执行记录,提出技能创建/更新/废弃建议,形成持续改进的正反馈循环。
执行任务 → 分析记录 → 发现改进点 → 更新技能 → 下次更好
↑ │
└────────────────────────────────────────────┘
自我进化正反馈循环
2. 核心流程
2.1 四阶段策展流程
阶段一:采集 (Collect)
├─ 从 session_search 获取最近完成的复杂任务
├─ 识别执行中的困难点(多次重试、用户纠正、工具调用失败)
└─ 提取关键决策点和工作流
阶段二:分析 (Analyze)
├─ 对比现有技能库:这个工作流是否已被某个技能覆盖?
├─ 评估复用价值:下次遇到类似任务,这个工作流能用上吗?
├─ 识别技能盲区:现有技能是否缺少关键步骤或陷阱提醒?
└─ 量化改进空间:如果当时有这个技能,能节省多少时间/Token?
阶段三:建议 (Propose)
├─ 创建建议:全新的工作流 → 建议创建新技能
├─ 更新建议:现有技能有缺陷 → 建议 patch 更新
├─ 废弃建议:长期未使用的技能 → 建议标记为 stale
└─ 合并建议:多个技能有重叠 → 建议合并
阶段四:执行 (Execute)
├─ 使用 skill_manage(action="create") 创建新技能
├─ 使用 skill_manage(action="patch") 更新现有技能
├─ 使用 /curator archive 归档废弃技能
└─ 验证更新后的技能在下次类似任务中有效
2.2 技能质量评估矩阵
| 维度 | 指标 | 健康阈值 | 警告阈值 |
|---|---|---|---|
| 使用频率 | 30 天内被调用次数 | ≥ 3 次 | ≤ 1 次 → stale 候选 |
| 成功率 | 使用技能后任务成功完成率 | ≥ 80% | ≤ 50% → 需要重写 |
| 用户满意度 | 技能执行后无用户纠正/抱怨 | 0 纠正 | ≥ 2 次纠正 → 质量有问题 |
| 时效性 | 距离上次更新的天数 | ≤ 90 天 | ≥ 180 天 → 需要审查 |
| 命令准确率 | 技能中的命令是否仍有效 | 100% | 任何失效命令 → 立即更新 |
2.3 Hermes 命令体系集成
# 查看技能健康状态
/curator status
# 手动触发策展审查
/curator run
# 对特定技能进行深度分析
/curator review skill-name
# 固定优质技能(防止自动归档)
/curator pin skill-name
# 归档长期未使用的技能
/curator archive skill-name
# 在 Hermes 会话中直接分析最近任务
session_search(query="recent complex tasks", limit=5)
2.4 自进化自举机制
本技能自身也在进化范围内——当策展流程发现更有效的分析方法时,它会更新自己的分析逻辑:
- 分析模式积累:从高评分任务中提取成功的分析模式
- 误判修正:如果某技能被错误标记为 stale 但后来被频繁使用,调整阈值
- 领域自适应:不同项目类型(Web/ML/Infra)使用不同的评估权重
- 用户偏好学习:用户更倾向于创建新技能还是更新现有技能?调整建议倾向
2.5 身份感知
- 读取
SOUL.md中的 "自我进化" 态度 - 保守型用户 → 更谨慎的建议,更低的自动执行频率
- 激进型用户 → 更积极的建议,允许自动应用低风险更新
- 技能文档风格跟随 SOUL 人设
3. 门禁标准
- 分析阶段至少检查了最近 3 个已完成任务
- 评估矩阵的五维度全部有数据支撑(无主观猜测)
- 建议包含具体的改进前后对比
- 如果建议创建新技能,已检查不与现有技能重复
- 如果建议更新现有技能,提供了 old_string / new_string
- 所有建议在执行前已向用户呈现并获得确认
4. 常见逃避借口与反驳
| 借口 | 反驳 |
|---|---|
| "任务完成了就行,不需要总结" | 不总结的经验是浪费的学费。你今天花了 2 小时解决的问题,明天可能只需要 5 分钟——如果当时总结了。 |
| "技能够用了,不需要优化" | 软件世界在变化、API 在变化、最佳实践在变化。不更新的技能是劣化的技能。 |
| "我没有时间做策展" | 策展是投资,不是开销。花 5 分钟策展能为你节省未来 50 分钟的重复劳动。 |
| "AI 不应该自动修改技能" | Hermes 的设计哲学就是 "自我进化"。但所有修改都会先向你展示,由你最终决定。 |
| "我不确定什么值得保存为技能" | 一个简单的判断标准:如果你在同一类问题上被卡住过 2 次以上,它值得一个技能。 |