deep-research Skill 评审报告 评估框架: skill-creator 评估日期: 2026-03-12 评估对象: deep-research
deep-research 是一个面向事实型与分析型研究任务的 source-backed research skill,适合用于技术调研、方案比较、观点核验和跨来源综合分析,强调先检索证据、再形成结论。它最突出的三个亮点是:内置证据链要求和 hallucination-aware 校验流程,能显著降低无依据结论;输出采用稳定的 7-section 模板,适合沉淀为可复用研究报告;同时要求编号引用、来源可信度标注和执行完整性说明,让研究结果更容易核查、复盘和继续扩展。
一、评估概览 本次评估从实际任务表现 和 Token 效费比 两个维度对 deep-research skill 进行全面评审。设计 3 个递进复杂度的研究场景(聚焦技术研究、多视角分析、跨领域综合),每个场景分别运行 with-skill 和 without-skill 配置,共 3 场景 × 2 配置 = 6 次独立 subagent 运行,对照 27 条 assertion 进行评分。
维度 With Skill Without Skill 差异 Assertion 通过率 27/27 (100%) 9/27 (33.3%) +66.7 百分点 7-section 模板合规 3/3 全对 0/3 Skill 独有 编号引用格式 [1]-[n] 3/3 全对 0/3 Skill 独有 来源可信度标注 3/3 全对 0/3 Skill 独有 内容质量(深度/广度/数据) 3/3 全对 3/3 全对 无差异 Skill Token 开销 ~1,350 tokens 0 — 每 1% 通过率提升的 Token 成本 ~20 tokens — 所有评估 skill 中最优
关键发现:deep-research skill 的核心价值是结构化纪律,而非内容质量提升。 基础模型已具备出色的研究能力(广度、深度、数据引用均优),但缺乏一致的报告结构。Skill 的 7-section 模板 + 编号引用 + 可信度标注填补了这一空白。
二、测试方法 2.1 场景设计 场景 用户请求 核心考察点 Assertions Eval 1: 聚焦技术研究 "Research Go generics adoption — patterns, best practices, pitfalls" 模板合规、引用格式、技术深度 10 Eval 2: 多视角分析 "Research AI code review tools — developer, team lead, security perspectives" 多视角覆盖、争议识别、平衡性 8 Eval 3: 跨领域综合 "Research OSS maintainer burnout — causes, strategies, evidence" 证据分层、共识/争议区分、研究空白 9
2.2 执行方式 With-skill 运行先读取 SKILL.md,按其 Research Process 和 Output Format 执行 Without-skill 运行不读取任何 skill,按模型默认行为生成研究报告 所有运行均可使用 WebSearch 和 WebFetch 工具查找真实来源 6 个 subagent 并行运行 2.3 Skill 特征 deep-research 是一个单文件 skill (仅 SKILL.md,无参考文件),193 行,985 单词,~1,350 tokens。其核心组件:
组件 行数 估算 Token Research Process(5 步流程) ~30 ~200 Output Format(7-section 模板) ~30 ~200 Source Evaluation Criteria ~8 ~60 完整示例(Intermittent Fasting) ~80 ~550 其他(description/frontmatter/headers) ~45 ~340 合计 193 ~1,350
三、Assertion 通过率 3.1 总览 场景 Assertions With Skill Without Skill 差值 Eval 1: Go 泛型研究 10 10/10 (100%) 3/10 (30.0%) +70.0% Eval 2: AI 代码审查 8 8/8 (100%) 3/8 (37.5%) +62.5% Eval 3: OSS 维护者倦怠 9 9/9 (100%) 3/9 (33.3%) +66.7% 总计 27 27/27 (100%) 9/27 (33.3%) +66.7%
3.2 逐项评分明细 Eval 1: Go 泛型研究 # Assertion With Skill Without Skill A1 "Executive Summary" 区段存在 ✅ ✅ A2 "Key Findings" 区段含编号引用 [1]-[n] ✅ (6 findings) ❌ A3 "Detailed Analysis" 区段含子主题 ✅ (7 subtopics) ❌ A4 "Areas of Consensus" 区段 ✅ (6 points) ❌ A5 "Areas of Debate" 区段 ✅ (6 points) ❌ A6 "Sources" 区段用编号 [1]-[n] 引用 ✅ (18 sources) ❌ A7 "Gaps and Further Research" 区段 ✅ (8 gaps) ❌ A8 ≥3 个独立来源 ✅ (18) ✅ (11) A9 来源含可信度标注 ✅ ❌ A10 Findings 包含具体数据点 ✅ ✅
Eval 2: AI 代码审查多视角分析 # Assertion With Skill Without Skill B1 全部 7 个模板区段存在 ✅ ❌ B2 覆盖 3 个视角(开发者/管理者/安全) ✅ ✅ B3 ≥4 个独立来源 ✅ (19) ✅ (10) B4 引用使用编号 [1]-[n] 格式 ✅ ❌ B5 Sources 区含可信度标注 ✅ ❌ B6 Areas of Debate 区标识真正分歧 ✅ (6 debates) ❌ B7 平衡覆盖优劣两面 ✅ ✅ B8 提及具体工具或研究 ✅ ✅
Eval 3: OSS 维护者倦怠研究 # Assertion With Skill Without Skill C1 全部 7 个模板区段存在 ✅ ❌ C2 ≥4 个独立来源 ✅ (29) ✅ (~30) C3 引用使用编号 [1]-[n] 并在正文引用 ✅ ❌ C4 来源含可信度评估 ✅ ❌ C5 策略含证据分层(强/中/弱) ✅ ✅ C6 覆盖三大主题(原因/策略/证据) ✅ ✅ C7 共识与争议明确区分 ✅ ❌ C8 Gaps 区提出具体研究方向 ✅ (8 gaps) ❌ C9 包含数据点和研究引用 ✅ ✅
3.3 Without-Skill 失败的 18 条 Assertion 归类 失败类型 次数 涉及 Eval 说明 缺少 7-section 模板中的特定区段 12 1/2/3 Key Findings (3), Areas of Consensus (3), Areas of Debate (3), Gaps and Further Research (3) 缺少编号 [1]-[n] 引用格式 3 1/2/3 使用内联 URL 或参考表格,无统一编号 缺少来源可信度标注 3 1/2/3 列出来源但无 "peer-reviewed / authoritative / moderate credibility" 标注
注意 :所有 18 条失败都是结构性/格式 失败,不是内容质量失败。Without-skill 在内容维度(来源数量、数据点、视角覆盖、证据分层)上全部通过。
3.4 趋势分析 场景复杂度 With-Skill 优势 失败类型 Eval 1(聚焦技术) +70.0%(7 failures) 全部结构性 Eval 2(多视角) +62.5%(5 failures) 全部结构性 Eval 3(跨领域) +66.7%(6 failures) 全部结构性
Skill 优势在三个场景间高度稳定 (62.5%-70.0%),不像其他 skill 有显著的复杂度趋势。原因是 Skill 的核心价值——模板合规——与场景复杂度无关:无论研究什么主题,7-section 模板和引用格式要么遵守要么不遵守。
四、逐维度对比分析 4.1 报告结构(7-Section 模板) 这是 Skill 独有 的差异化产出,贡献 12 条 assertion 差值。
区段 With Skill 3/3 Without Skill 产出替代 Executive Summary ✅ 始终存在 ✅ 通常存在(2/3 有标题) Key Findings ✅ 简洁要点 + 引用 ❌ 无独立区段;findings 分散在各节 Detailed Analysis ✅ 有子标题的深入分析 ⚠️ 通常有类似内容但命名不同 Areas of Consensus ✅ 独立区段 ❌ 无;共识信息隐含在正文中 Areas of Debate ✅ 独立区段 ❌ 无;争议信息零散分布 Sources ✅ 编号 + 可信度 ⚠️ 存在但格式各异(表格/列表/内联) Gaps and Further Research ✅ 前瞻性研究方向 ❌ 无独立区段或仅简短提及
实际价值: - Areas of Consensus + Debate 区分 是最有价值的结构元素——它迫使研究者明确区分"已确认"和"仍有争议"的发现,防止读者把初步发现误当定论 - Gaps 区段 驱动前瞻性思维——Without-skill 的产出是"此刻状态的快照",With-skill 增加了"未来研究方向"的维度 - Key Findings 区段 为忙碌的读者提供快速概览——Without-skill 的读者需要通读全文才能提取要点
4.2 引用格式(编号 [1]-[n]) 维度 With Skill Without Skill 引用格式 [1], [2], ..., [n] — 正文编号 + 末尾完整引用 内联 URL、表格、括号引用、author-year 格式混用 交叉引用 正文中的 [1][2] 可立即在 Sources 区找到对应来源 需手动在不同格式间匹配 一致性 3/3 场景格式完全一致 3/3 场景格式各不相同
分析: Without-skill 的 Eval 1 使用了 Markdown 表格列出来源(含 URL 和"Key Contribution"),Eval 2 使用了编号表格,Eval 3 按类别列出来源。三个场景引用格式互不相同。With-skill 的 3 个场景引用格式完全一致:正文 [n],末尾 [n] Full citation (credibility note)。
4.3 来源可信度标注 场景 With Skill Without Skill Eval 1 18 sources,每个标注如 "(Official Go team guidance; highest credibility)" 11 sources,仅 "Key Contribution" 列 Eval 2 19 sources,每个标注如 "(Pre-print; moderate credibility)" 10 sources,仅 "Type" 列 Eval 3 29 sources,每个标注如 "(Peer-reviewed conference paper; high credibility)" ~30 sources 按 Academic/Industry 分类,无逐条可信度
实际价值: 可信度标注帮助读者快速评估证据权重。例如 Eval 3 中 With-skill 明确标注 "self-reported survey data, not a randomized trial, but the effect sizes are large",让读者知道 Tidelift 数据的局限性。Without-skill 仅列出来源名称,不评估其权威性。
4.4 内容质量对比 维度 With Skill Without Skill 差异 来源数量 18 / 19 / 29 11 / 10 / ~30 相当或 With-skill 略多 数据点密度 高 高 无显著差异 代码示例(Eval 1) 多个完整 Go 代码块 多个完整 Go 代码块 无显著差异 性能数据(Eval 1) PlanetScale benchmark 表格 DeepSource 引用 + 定性描述 With-skill 略优 工具对比表格(Eval 2) 5 工具 × 3 维度表 5 工具 × 3 维度表(不同数据) 相当 证据分层(Eval 3) Strong/Moderate/Weak + Consensus/Debate Strongest/Moderate/Weak/Absent 相当 WebSearch 使用 广泛(12+ searches/eval) 广泛(8+ searches/eval) 相当 研究深度 优秀 优秀 无显著差异
关键结论: 基础模型在内容质量上已经非常出色。With-skill 和 Without-skill 在来源数量、数据密度、分析深度上几乎无差异。Skill 的核心增量完全在结构化模板 和引用格式规范 上。
五、Token 效费比分析 5.1 Skill 体积 deep-research 是一个极轻量级 skill ——单文件,无参考资料,固定 ~1,350 tokens 开销。
文件 行数 单词 字节 估算 Token SKILL.md 193 985 6,995 ~1,350 Description(始终在 context) — ~40 — ~50 参考资料 无 — — 0 总计 193 985 6,995 ~1,350
5.2 Token 换取的质量提升 指标 数值 With-skill 通过率 100% (27/27) Without-skill 通过率 33.3% (9/27) 通过率提升 +66.7 百分点 每修复 1 条 assertion 的 Token 成本 ~75 tokens 每 1% 通过率提升的 Token 成本 ~20 tokens
5.3 Token 分段效费比 模块 估算 Token 关联 Assertion 差值 效费比 Output Format 模板 ~200 12 条(7-section 模板 × 3 evals,扣除 Executive Summary) 极高 — 17 tok/assertion 引用格式规则([1]-[n] + 可信度) ~80 6 条(编号格式 3 + 可信度标注 3) 极高 — 13 tok/assertion Research Process(5 步流程) ~200 间接贡献(驱动系统化研究方法) 中 — 无直接 assertion Source Evaluation Criteria ~60 间接贡献(驱动可信度标注内容) 中 — 间接贡献 完整示例(Intermittent Fasting) ~550 间接贡献(示范模板使用方式) 低 — 占 41% tokens 但无直接 assertion 其他(frontmatter/headers) ~260 0 条 低 — 基础框架
5.4 高杠杆 vs 低杠杆指令 高杠杆(~280 tokens → 18 条 assertion 差值): - Output Format 模板定义(~200 tok → 12 条) - 引用格式 + 可信度规则(~80 tok → 6 条)
中杠杆(~260 tokens → 间接贡献): - Research Process 5 步流程(~200 tok) - Source Evaluation Criteria(~60 tok)
低杠杆(~810 tokens → 0 条直接差值): - 完整示例(~550 tok)— 占总量 41%,但示范效应可能对模板遵从有间接贡献 - 其他框架内容(~260 tok)
5.5 Token 效率评级 评级 结论 整体 ROI 极优 — ~1,350 tokens 换取 +66.7% 通过率 高杠杆 Token 比例 ~21%(280/1,350)直接贡献 18/18 条 assertion 差值 低杠杆 Token 比例 ~60%(810/1,350)无直接 assertion 贡献 参考资料效费比 N/A — 无参考资料 示例效费比 待优化 — 550 tokens(41%)用于一个示例,压缩空间大
5.6 与其他 Skill 的效费比对比 指标 deep-research yt-dlp-downloader go-makefile-writer tdd-workflow SKILL.md Token ~1,350 ~2,370 ~1,960 ~2,100 总加载 Token ~1,350 ~5,100-5,730 ~4,100-4,600 ~3,600-4,800 通过率提升 +66.7% +55.0% +31.0% +46.2% 每 1% 的 Token(SKILL.md) ~20 tok ~43 tok ~63 tok ~45 tok 每 1% 的 Token(full) ~20 tok ~95 tok ~149 tok ~92 tok
deep-research 的 Token 效费比在所有已评估 skill 中最优 ,原因: 1. 单文件,零参考资料 — 固定 ~1,350 tokens 开销,无条件加载复杂性 2. 基础模型研究能力缺口精准 — 缺的恰好是结构模板(容易用少量 tokens 填补),而非领域知识 3. 模板指令极其紧凑 — 7-section 定义仅需 ~200 tokens 即可驱动 12 条 assertion 差值
六、与基础模型能力的边界分析 6.1 基础模型已具备的能力(Skill 无增量) 能力 证据 WebSearch + WebFetch 信息收集 3/3 场景均使用 8-12+ 次搜索 多来源综合 3/3 场景引用 10-30 个来源 具体数据点引用 3/3 场景包含数字、百分比、研究结果 多视角覆盖 Eval 2 正确覆盖开发者/管理者/安全专家 证据分层(强/中/弱) Eval 3 without-skill 自行实现 Strongest/Moderate/Weak 分层 代码示例和 benchmark 数据 Eval 1 without-skill 包含完整 Go 代码和性能表格 平衡的优劣分析 3/3 场景覆盖正反两面
6.2 基础模型的能力缺口(Skill 填补) 缺口 证据 风险等级 无一致的报告模板 3/3 场景使用不同结构 中 — 跨报告对比困难 缺少 Areas of Consensus/Debate 区分 3/3 场景无独立区段 中 — 读者难以区分已确认和未定论 缺少 Key Findings 快速概览 3/3 场景无独立区段 低 — 读者可自行提取 缺少 Gaps and Further Research 区段 3/3 场景无或仅简短提及 中 — 缺失前瞻性视角 引用格式不一致 3/3 场景格式各异 低 — 功能不受影响 无来源可信度标注 3/3 场景无逐条可信度评估 中 — 读者无法快速评估证据权重
核心发现: 基础模型的"研究能力"(搜索、综合、分析)极为出色,但"研究报告写作纪律"(结构一致性、引用规范、可信度评估)有显著缺口。Skill 填补的恰好是后者。
七、综合评分 7.1 分维度评分 维度 With Skill Without Skill 差值 报告结构合规 5.0/5 1.0/5 +4.0 引用格式与可信度 5.0/5 1.5/5 +3.5 共识/争议区分 5.0/5 1.0/5 +4.0 前瞻性(Gaps 区段) 5.0/5 1.5/5 +3.5 内容深度与广度 5.0/5 4.5/5 +0.5 来源数量与质量 5.0/5 4.5/5 +0.5 综合均值 5.0/5 2.33/5 +2.67
7.2 加权总分 维度 权重 得分 加权 Assertion 通过率(delta) 25% 10/10 2.50 报告结构合规 20% 10/10 2.00 引用格式与可信度 15% 10/10 1.50 共识/争议区分 + 前瞻性 10% 10/10 1.00 Token 效费比 15% 10/10 1.50 内容质量增量 10% 2.0/10 0.20 来源数量/质量增量 5% 2.0/10 0.10 加权总分 8.80/10
内容质量和来源增量评分较低反映了一个重要事实:基础模型的研究能力本身已经很强 ,Skill 的价值集中在结构化报告写作上而非信息收集或分析深度。这不是 Skill 的缺陷,而是其设计定位的准确反映。
八、评估材料 材料 路径 Eval 1 with-skill 输出 /tmp/research-eval/eval-1/with_skill/response.md Eval 1 without-skill 输出 /tmp/research-eval/eval-1/without_skill/response.md Eval 2 with-skill 输出 /tmp/research-eval/eval-2/with_skill/response.md Eval 2 without-skill 输出 /tmp/research-eval/eval-2/without_skill/response.md Eval 3 with-skill 输出 /tmp/research-eval/eval-3/with_skill/response.md Eval 3 without-skill 输出 /tmp/research-eval/eval-3/without_skill/response.md