| name | skill-judge |
| description | 根据官方规范和最佳实践评估 Agent Skill 设计质量。用于审查、审计或改进 SKILL.md 文件和 skill 包。提供多维度评分和可操作的改进建议。 |
Skill 评审官
根据官方规范和从 17+ 个官方示例中提炼的模式来评估 Agent Skills。
核心理念
什么是 Skill?
Skill 不是教程。Skill 是一种知识外化机制。
传统 AI 知识被锁在模型参数中。要教授新能力:
传统方式:收集数据 → GPU 集群 → 训练 → 部署新版本
成本:$10,000 - $1,000,000+
周期:数周到数月
Skill 改变了这一切:
Skill:编辑 SKILL.md → 保存 → 下次调用即生效
成本:$0
周期:即时
这是从"训练 AI"到"教育 AI"的范式转变——就像一个无需训练的热插拔 LoRA 适配器。你用自然语言编辑一个 Markdown 文件,模型的行为就会改变。
核心公式
好的 Skill = 专家独有知识 − Claude 已知的知识
Skill 的价值由其知识增量衡量——它提供的内容与模型已知内容之间的差距。
- 专家独有知识:决策树、权衡取舍、边缘情况、反模式、领域特定思维框架——这些需要多年经验积累的东西
- Claude 已知的知识:基本概念、标准库用法、常见编程模式、通用最佳实践
当 Skill 解释"什么是 PDF"或"如何写 for 循环"时,它在压缩 Claude 已有的知识。这是token 浪费——上下文窗口是与系统提示、对话历史、其他 Skills 和用户请求共享的公共资源。
Tool vs Skill
| 概念 | 本质 | 功能 | 示例 |
|---|---|---|---|
| Tool | 模型能做什么 | 执行动作 | bash、read_file、write_file、WebSearch |
| Skill | 模型知道如何做什么 | 指导决策 | PDF 处理、MCP 构建、前端设计 |
Tool 定义能力边界——没有 bash tool,模型无法执行命令。 Skill 注入知识——没有 frontend-design Skill,模型产出的是通用 UI。
等式:
通用 Agent + 优秀 Skill = 领域专家 Agent
同一个 Claude 模型,加载不同的 Skills,就成为不同的专家。
Skill 中的三类知识
评估时,对每个部分进行分类:
| 类型 | 定义 | 处理方式 |
|---|---|---|
| 专家级 | Claude 确实不知道这个 | 必须保留——这是 Skill 的价值 |
| 激活级 | Claude 知道但可能想不到 | 简短则保留——起提醒作用 |
| 冗余级 | Claude 肯定知道这个 | 应该删除——浪费 token |
Skill 设计的艺术在于:最大化专家级内容,谨慎使用激活级,无情删除冗余级。
评估维度(总分 120 分)
D1:知识增量(20 分)——核心维度
最重要的维度。Skill 是否添加了真正的专家知识?
| 分数 | 标准 |
|---|---|
| 0-5 | 解释 Claude 已知的基础知识(什么是 X、如何写代码、标准库教程) |
| 6-10 | 混合:一些专家知识被显而易见的内容稀释 |
| 11-15 | 大部分是专家知识,冗余最少 |
| 16-20 | 纯知识增量——每个段落都值得其 token |
红旗(直接得分 ≤5):
- "什么是[基本概念]"部分
- 标准操作的分步教程
- 解释如何使用常见库
- 通用最佳实践("写干净的代码"、"处理错误")
- 行业标准术语的定义
绿旗(高知识增量的指标):
- 非显而易见选择的决策树("当 X 失败时,尝试 Y 因为 Z")
- 只有专家才知道的权衡("A 更快但 B 能处理边缘情况 C")
- 来自实际经验的边缘情况
- "绝对不要做 X 因为[非显而易见的原因]"
- 领域特定的思维框架
评估问题:
- 对于每个部分,问:"Claude 已经知道这个吗?"
- 如果在解释什么,问:"这是在向 Claude 解释还是为 Claude 解释?"
- 统计专家级 vs 激活级 vs 冗余级的段落数
D2:思维模式 + 适当的流程(15 分)
Skill 是否传递了专家思维模式以及必要的领域特定流程?
专家和新手的区别不是"知道如何操作"——而是"如何思考问题"。但当 Claude 缺乏领域特定的程序性知识时,仅有思维模式是不够的。
关键区分:
| 类型 | 示例 | 价值 |
|---|---|---|
| 思维模式 | "设计前先问:是什么让这个令人难忘?" | 高——塑造决策 |
| 领域特定流程 | "OOXML 工作流:解包 → 编辑 XML → 验证 → 打包" | 高——Claude 可能不知道 |
| 通用流程 | "步骤 1:打开文件,步骤 2:编辑,步骤 3:保存" | 低——Claude 已经知道 |
| 分数 | 标准 |
|---|---|
| 0-3 | 只有 Claude 已知的通用流程 |
| 4-7 | 有领域流程但缺乏思维框架 |
| 8-11 | 良好平衡:思维模式 + 领域特定工作流 |
| 12-15 | 专家级:塑造思维并提供 Claude 不知道的流程 |
有价值的流程包括:
- Claude 未被训练过的工作流(新工具、专有系统)
- 非显而易见的正确顺序(如"打包前验证,不是打包后")
- 容易遗漏的关键步骤(如"编辑后必须重新计算公式")
- 领域特定序列(如 MCP 服务器的 4 阶段开发流程)
冗余的流程包括:
- 通用文件操作(打开、读取、写入、保存)
- 标准编程模式(循环、条件、错误处理)
- 文档完善的常见库用法
专家思维模式示例:
在[动作]之前,问自己:
- **目的**:这解决什么问题?谁使用它?
- **约束**:隐藏的需求是什么?
- **差异化**:是什么让这个解决方案令人难忘?
有价值的领域流程示例:
### 修订标记工作流(Claude 不会知道这个序列)
1. 转换为 markdown:`pandoc --track-changes=all`
2. 将文本映射到 XML:在 document.xml 中 grep 文本
3. 分批实施更改,每批 3-10 个
4. 打包并验证:检查所有更改是否已应用
冗余的通用流程示例:
步骤 1:打开文件
步骤 2:找到该部分
步骤 3:进行更改
步骤 4:保存并测试
测试方法:
- 它是否告诉 Claude 要思考什么?(思维模式)
- 它是否告诉 Claude 如何做它不知道的事情?(领域流程)
好的 Skill 在需要时两者都提供。
D3:反模式质量(15 分)
Skill 是否有有效的"绝对不要"清单?
为什么重要:专家知识的一半是知道什么不该做。资深设计师看到白色背景上的紫色渐变会本能地皱眉——"太 AI 生成了"。这种"绝对不能做什么"的直觉来自踩过无数地雷。
Claude 没有踩过这些地雷。它不知道 Inter 字体被过度使用,不知道紫色渐变是 AI 生成内容的标志。好的 Skills 必须明确说明这些"绝对不要"。
| 分数 | 标准 |
|---|---|
| 0-3 | 没有提到反模式 |
| 4-7 | 通用警告("避免错误"、"小心"、"考虑边缘情况") |
| 8-11 | 具体的"绝对不要"清单,有一些理由 |
| 12-15 | 专家级反模式,带有原因——只有经验才能教会的东西 |
专家级反模式(具体 + 原因):
绝对不要使用通用的 AI 生成美学,如:
- 过度使用的字体系列(Inter、Roboto、Arial)
- 陈词滥调的配色方案(特别是白色背景上的紫色渐变)
- 可预测的布局和组件模式
- 所有东西都用默认圆角
弱反模式(模糊,无理由):
避免犯错误。
小心边缘情况。
不要写糟糕的代码。
测试方法:专家读到反模式清单时会说"是的,我是吃过亏才学到这个的"吗?还是会说"这对每个人都很明显"?
D4:规范合规性——特别是 Description(15 分)
Skill 是否遵循官方格式要求?特别关注 description 质量。
| 分数 | 标准 |
|---|---|
| 0-5 | 缺少 frontmatter 或格式无效 |
| 6-10 | 有 frontmatter 但 description 模糊或不完整 |
| 11-13 | 有效的 frontmatter,description 有"做什么"但"何时使用"较弱 |
| 14-15 | 完美:全面的 description,包含"做什么"、"何时使用"和触发关键词 |
Frontmatter 要求:
name:小写,仅限字母数字 + 连字符,≤64 字符description:最关键的字段——决定 skill 是否会被使用
为什么 description 是最重要的字段:
┌─────────────────────────────────────────────────────────────────────┐
│ SKILL 激活流程 │
│ │
│ 用户请求 → Agent 看到所有 skill 的 description → 决定激活哪个 │
│ (只看 description,不看正文!) │
│ │
│ 如果 description 不匹配 → Skill 永远不会被加载 │
│ 如果 description 模糊 → Skill 可能在应该触发时没有触发 │
│ 如果 description 缺少关键词 → Skill 对 Agent 不可见 │
└─────────────────────────────────────────────────────────────────────┘
残酷的事实:内容完美但 description 糟糕的 Skill 是无用的——它永远不会被激活。description 是告诉 Agent"在这些情况下使用我"的唯一机会。
Description 必须回答三个问题:
- 做什么:这个 Skill 做什么?(功能)
- 何时用:在什么情况下应该使用它?(触发场景)
- 关键词:什么术语应该触发这个 Skill?(可搜索的术语)
优秀的 description(三要素齐全):
description: "全面的文档创建、编辑和分析,支持修订标记、评论、格式保留和文本提取。
当 Claude 需要处理专业文档(.docx 文件)时使用,包括:
(1) 创建新文档,(2) 修改或编辑内容,
(3) 处理修订标记,(4) 添加评论,或任何其他文档任务"
分析:
- 做什么:创建、编辑、分析、修订标记、评论
- 何时用:"当 Claude 需要处理... 时:(1)... (2)... (3)..."
- 关键词:.docx 文件、修订标记、专业文档
糟糕的 description(缺少要素):
description: "处理文档相关功能"
问题:
- 做什么:模糊("文档相关功能"——具体是什么?)
- 何时用:缺失(Agent 什么时候应该使用这个?)
- 关键词:缺失(没有".docx",没有具体场景)
另一个糟糕的例子:
description: "一个用于各种任务的有用 skill"
这毫无用处——Agent 不知道什么时候激活它。
Description 质量检查清单:
- 列出具体能力(不只是"帮助处理 X")
- 包含明确的触发场景("当...时使用"、"当用户要求...")
- 包含可搜索的关键词(文件扩展名、领域术语、动作动词)
- 足够具体,让 Agent 确切知道何时使用
- 包含必须使用此 skill 的场景(不只是"可以使用")
D5:渐进式披露(15 分)
Skill 是否实现了适当的内容分层?
Skill 加载有三层:
第 1 层:元数据(始终在内存中)
只有 name + description
每个 skill 约 100 token
第 2 层:SKILL.md 正文(触发后加载)
详细指南、代码示例、决策树
理想:< 500 行
第 3 层:资源(按需加载)
scripts/、references/、assets/
无限制
| 分数 | 标准 |
|---|---|
| 0-5 | 所有内容都堆在 SKILL.md 中(>500 行,无结构) |
| 6-10 | 有 references 但不清楚何时加载 |
| 11-13 | 良好的分层,有必要的触发器 |
| 14-15 | 完美:决策树 + 明确触发器 + "不要加载"指导 |
对于有 references 目录的 Skills,检查加载触发器质量:
| 触发器质量 | 特征 |
|---|---|
| 差 | References 列在末尾,无加载指导 |
| 一般 | 有一些触发器但未嵌入工作流 |
| 好 | 工作流步骤中有必要的触发器 |
| 优秀 | 场景检测 + 条件触发器 + "不要加载" |
加载问题:
加载太少 ◄─────────────────────────────────► 加载太多
- References 闲置不用 - 浪费上下文空间
- Agent 不知道何时加载 - 无关信息稀释关键内容
- 知识在那里但从未被访问 - 不必要的 token 开销
好的加载触发器(嵌入工作流):
### 创建新文档
**必须 - 完整阅读文件**:在继续之前,你必须从头到尾完整阅读
[`docx-js.md`](docx-js.md)(约 500 行)。
**阅读此文件时绝对不要设置任何范围限制。**
**不要加载**此任务的 `ooxml.md` 或 `redlining.md`。
差的加载触发器(只是列出):
## References
- docx-js.md - 用于创建文档
- ooxml.md - 用于编辑
- redlining.md - 用于修订标记
对于简单的 Skills(无 references,<100 行):根据简洁性和自包含性评分。
D6:自由度校准(15 分)
具体程度是否与任务的脆弱性相匹配?
不同任务需要不同程度的约束。这是关于将自由度与脆弱性匹配。
| 分数 | 标准 |
|---|---|
| 0-5 | 严重不匹配(创意任务用死板脚本,脆弱操作用模糊指导) |
| 6-10 | 部分适当,有些不匹配 |
| 11-13 | 大多数场景校准良好 |
| 14-15 | 全程完美的自由度校准 |
自由度光谱:
| 任务类型 | 应该有 | 原因 | 示例 Skill |
|---|---|---|---|
| 创意/设计 | 高自由度 | 多种有效方法,差异化是价值 | frontend-design |
| 代码审查 | 中等自由度 | 有原则但需要判断 | code-review |
| 文件格式操作 | 低自由度 | 一个字节错误就损坏文件,一致性至关重要 | docx、xlsx、pdf |
高自由度(基于文本的指导):
承诺一个大胆的美学方向。选择一个极端:极简主义、
极繁主义混乱、复古未来主义、有机自然...
中等自由度(伪代码或参数化):
审查优先级:
1. 安全漏洞(必须修复)
2. 逻辑错误(必须修复)
3. 性能问题(应该修复)
4. 可维护性(可选)
低自由度(具体脚本,精确步骤):
**必须**:使用 `scripts/create-doc.py` 中的精确脚本
参数:--title "X" --author "Y"
不要修改脚本。
测试方法:问"如果 Agent 犯错,后果是什么?"
- 高后果 → 低自由度
- 低后果 → 高自由度
D7:模式识别(10 分)
Skill 是否遵循已建立的官方模式?
通过分析 17 个官方 Skills,我们识别出 5 种主要设计模式:
| 模式 | 约行数 | 关键特征 | 示例 | 何时使用 |
|---|---|---|---|---|
| 思维型 | ~50 | 思维 > 技术,强"绝对不要"清单,高自由度 | frontend-design | 需要品味的创意任务 |
| 导航型 | ~30 | 最小 SKILL.md,路由到子文件 | internal-comms | 多个不同场景 |
| 哲学型 | ~150 | 两步:哲学 → 表达,强调工艺 | canvas-design | 需要原创性的艺术/创作 |
| 流程型 | ~200 | 分阶段工作流,检查点,中等自由度 | mcp-builder | 复杂的多步骤项目 |
| 工具型 | ~300 | 决策树,代码示例,低自由度 | docx、pdf、xlsx | 特定格式的精确操作 |
| 分数 | 标准 |
|---|---|
| 0-3 | 无可识别的模式,结构混乱 |
| 4-6 | 部分遵循某个模式,有显著偏差 |
| 7-8 | 清晰的模式,有轻微偏差 |
| 9-10 | 精通地应用适当的模式 |
模式选择指南:
| 你的任务特征 | 推荐模式 |
|---|---|
| 需要品味和创意 | 思维型(~50 行) |
| 需要原创性和工艺质量 | 哲学型(~150 行) |
| 有多个不同的子场景 | 导航型(~30 行) |
| 复杂的多步骤项目 | 流程型(~200 行) |
| 特定格式的精确操作 | 工具型(~300 行) |
D8:实用可用性(15 分)
Agent 能否有效使用这个 Skill?
| 分数 | 标准 |
|---|---|
| 0-5 | 混乱、不完整、矛盾或未经测试的指导 |
| 6-10 | 可用但有明显差距 |
| 11-13 | 常见情况有清晰指导 |
| 14-15 | 全面覆盖,包括边缘情况和错误处理 |
检查项:
- 决策树:对于多路径场景,是否有清晰的路径选择指导?
- 代码示例:它们真的能工作吗?还是会出错的伪代码?
- 错误处理:如果主要方法失败怎么办?是否提供了备选方案?
- 边缘情况:是否涵盖了不常见但现实的场景?
- 可操作性:Agent 能立即行动,还是需要自己弄清楚?
好的可用性(决策树 + 备选方案):
| 任务 | 主要工具 | 备选方案 | 何时使用备选方案 |
|------|----------|----------|------------------|
| 读取文本 | pdftotext | PyMuPDF | 需要布局信息 |
| 提取表格 | camelot-py | tabula-py | camelot 失败 |
**常见问题**:
- 扫描的 PDF:pdftotext 返回空白 → 先使用 OCR
- 加密的 PDF:权限错误 → 使用 PyMuPDF 带密码
差的可用性(模糊):
使用适当的工具进行 PDF 处理。
正确处理错误。
考虑边缘情况。
评估时绝对不要做的事
- 绝对不要仅仅因为"看起来专业"或格式良好就给高分
- 绝对不要忽视 token 浪费——每个冗余段落都应该扣分
- 绝对不要被长度打动——43 行的 Skill 可以胜过 500 行的 Skill
- 绝对不要跳过心理测试决策树——它们真的能导向正确的选择吗?
- 绝对不要用"但它提供了有用的背景"来原谅解释基础知识
- 绝对不要忽视缺失的反模式——如果没有"绝对不要"清单,这是一个重大差距
- 绝对不要假设所有流程都有价值——区分领域特定和通用流程
- 绝对不要低估 description 字段——糟糕的 description = skill 永远不会被使用
- 绝对不要把"何时使用"信息只放在正文中——Agent 在加载前只能看到 description
评估协议
步骤 1:第一遍——知识增量扫描
完整阅读 SKILL.md,对每个部分问:
"Claude 已经知道这个吗?"
将每个部分标记为:
- [E] 专家级:Claude 确实不知道这个——增值
- [A] 激活级:Claude 知道但简短提醒有用——可接受
- [R] 冗余级:Claude 肯定知道这个——应该删除
计算大致比例:E:A:R
- 好的 Skill:>70% 专家级,<20% 激活级,<10% 冗余级
- 一般的 Skill:40-70% 专家级,高激活级
- 差的 Skill:<40% 专家级,高冗余级
步骤 2:结构分析
[ ] 检查 frontmatter 有效性
[ ] 统计 SKILL.md 总行数
[ ] 列出所有 reference 文件及其大小
[ ] 识别 Skill 遵循的模式
[ ] 检查加载触发器(如果有 references)
步骤 3:对每个维度评分
对 8 个维度中的每一个:
- 找到具体证据(引用相关行)
- 给出分数并附一行理由
- 如果分数 < 满分,注明具体改进点
步骤 4:计算总分和等级
总分 = D1 + D2 + D3 + D4 + D5 + D6 + D7 + D8
满分 = 120 分
等级量表(基于百分比):
| 等级 | 百分比 | 含义 |
|---|---|---|
| A | 90%+(108+) | 优秀——可投入生产的专家级 Skill |
| B | 80-89%(96-107) | 良好——需要小改进 |
| C | 70-79%(84-95) | 合格——有明确的改进路径 |
| D | 60-69%(72-83) | 低于平均——有重大问题 |
| F | <60%(<72) | 差——需要根本性重新设计 |
步骤 5:生成报告
# Skill 评估报告:[Skill 名称]
## 摘要
- **总分**:X/120(X%)
- **等级**:[A/B/C/D/F]
- **模式**:[思维型/导航型/哲学型/流程型/工具型]
- **知识比例**:E:A:R = X:Y:Z
- **结论**:[一句话评估]
## 维度得分
| 维度 | 得分 | 满分 | 备注 |
|------|------|------|------|
| D1:知识增量 | X | 20 | |
| D2:思维模式 vs 机械操作 | X | 15 | |
| D3:反模式质量 | X | 15 | |
| D4:规范合规性 | X | 15 | |
| D5:渐进式披露 | X | 15 | |
| D6:自由度校准 | X | 15 | |
| D7:模式识别 | X | 10 | |
| D8:实用可用性 | X | 15 | |
## 关键问题
[列出显著影响 Skill 有效性的必须修复问题]
## 前 3 项改进
1. [最高影响的改进,附具体指导]
2. [第二优先改进]
3. [第三优先改进]
## 详细分析
[对于每个低于 80% 的维度,提供:
- 缺失或有问题的内容
- Skill 中的具体示例
- 具体的改进建议]
常见失败模式
模式 1:教程型
症状:解释什么是 PDF、Python 如何工作、基本库用法
根本原因:作者认为 Skill 应该"教"模型
修复:Claude 已经知道这些。删除所有基础解释。
专注于专家决策、权衡和反模式。
模式 2:堆砌型
症状:SKILL.md 有 800+ 行,什么都包含
根本原因:没有渐进式披露设计
修复:核心路由和决策树放在 SKILL.md(理想 <300 行)
详细内容放在 references/,按需加载
模式 3:孤儿引用型
症状:References 目录存在但文件从未被加载
根本原因:没有明确的加载触发器
修复:在工作流决策点添加"必须 - 完整阅读文件"
添加"不要加载"以防止过度加载
模式 4:清单流程型
症状:步骤 1、步骤 2、步骤 3... 机械流程
根本原因:作者用流程思考,而不是思维框架
修复:转换为"在做 X 之前,问自己..."
专注于决策原则,而不是操作序列
模式 5:模糊警告型
症状:"小心"、"避免错误"、"考虑边缘情况"
根本原因:作者知道可能出错但没有明确说明具体内容
修复:具体的"绝对不要"清单,带具体示例和非显而易见的原因
"绝对不要使用 X 因为[需要经验才能学到的具体问题]"
模式 6:隐形 Skill 型
症状:内容很好但 skill 很少被激活
根本原因:Description 模糊,缺少关键词,或缺少触发场景
修复:Description 必须回答"做什么"、"何时用",并包含关键词
"当...时使用" + 具体场景 + 可搜索术语
修复示例:
差: "帮助处理文档任务"
好: "创建、编辑和分析 .docx 文件。当处理 Word 文档、
修订标记或专业文档格式时使用。"
模式 7:位置错误型
症状:"何时使用此 Skill"部分在正文中,不在 description 中
根本原因:误解三层加载机制
修复:将所有触发信息移到 description 字段
正文只在触发决策做出后才加载
模式 8:过度工程型
症状:README.md、CHANGELOG.md、INSTALLATION_GUIDE.md、CONTRIBUTING.md
根本原因:把 Skill 当作软件项目
修复:删除所有辅助文件。只包含 Agent 完成任务所需的内容。
不需要关于 Skill 本身的文档。
模式 9:自由度错配型
症状:创意任务用死板脚本,脆弱操作用模糊指导
根本原因:没有考虑任务脆弱性
修复:创意任务高自由度(原则,不是步骤)
脆弱操作低自由度(精确脚本,无参数)
快速参考检查清单
┌─────────────────────────────────────────────────────────────────────────┐
│ SKILL 评估快速检查 │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 知识增量(最重要): │
│ [ ] 没有对基本概念的"什么是 X"解释 │
│ [ ] 没有标准操作的分步教程 │
│ [ ] 有非显而易见选择的决策树 │
│ [ ] 有只有专家才知道的权衡 │
│ [ ] 有来自实际经验的边缘情况 │
│ │
│ 思维模式 + 流程: │
│ [ ] 传递思维模式(如何思考问题) │
│ [ ] 有"在做 X 之前,问自己..."框架 │
│ [ ] 包含 Claude 不知道的领域特定流程 │
│ [ ] 区分有价值的流程和通用流程 │
│ │
│ 反模式: │
│ [ ] 有明确的"绝对不要"清单 │
│ [ ] 反模式是具体的,不是模糊的 │
│ [ ] 包含原因(非显而易见的理由) │
│ │
│ 规范(description 至关重要!): │
│ [ ] 有效的 YAML frontmatter │
│ [ ] name:小写,≤64 字符 │
│ [ ] description 回答:做什么? │
│ [ ] description 回答:何时使用? │
│ [ ] description 包含触发关键词 │
│ [ ] description 足够具体,让 Agent 知道何时使用 │
│ │
│ 结构: │
│ [ ] SKILL.md < 500 行(理想 < 300) │
│ [ ] 重内容放在 references/ │
│ [ ] 加载触发器嵌入工作流 │
│ [ ] 有"不要加载"以防止过度加载 │
│ │
│ 自由度: │
│ [ ] 创意任务 → 高自由度(原则) │
│ [ ] 脆弱操作 → 低自由度(精确脚本) │
│ │
│ 可用性: │
│ [ ] 多路径场景有决策树 │
│ [ ] 代码示例能工作 │
│ [ ] 有错误处理和备选方案 │
│ [ ] 覆盖边缘情况 │
│ │
└─────────────────────────────────────────────────────────────────────────┘
元问题
评估任何 Skill 时,始终回到这个根本问题:
"这个领域的专家看到这个 Skill 会说: '是的,这捕捉了我花了多年才学到的知识'吗?"
如果答案是肯定的 → Skill 有真正的价值。 如果答案是否定的 → 它在压缩 Claude 已知的内容。
最好的 Skills 是压缩的专家大脑——它们把设计师 10 年的美学积累压缩成 43 行,或把文档专家的操作经验压缩成 200 行的决策树。
被压缩的必须是 Claude 没有的东西。否则,就是垃圾压缩。
自我评估说明
这个 Skill(skill-judge)本身应该通过评估:
- 知识增量:提供 Claude 不会自己生成的具体评估标准
- 思维模式:塑造如何思考 Skill 质量,不只是检查清单项
- 反模式:"评估时绝对不要做的事"部分有具体的"不要"
- 规范:有效的 frontmatter,全面的 description
- 渐进式披露:自包含,不需要外部引用
- 自由度:适合评估任务的中等自由度
- 模式:遵循工具型模式,有决策框架
- 可用性:清晰的协议、报告模板、快速参考
用这个 Skill 评估它自己作为校准练习。