Skip to content

deep-research Skill 评审报告

评估框架: skill-creator 评估日期: 2026-03-12 评估对象: deep-research


deep-research 是一个面向事实型与分析型研究任务的 source-backed research skill,适合用于技术调研、方案比较、观点核验和跨来源综合分析,强调先检索证据、再形成结论。它最突出的三个亮点是:内置证据链要求和 hallucination-aware 校验流程,能显著降低无依据结论;输出采用稳定的 7-section 模板,适合沉淀为可复用研究报告;同时要求编号引用、来源可信度标注和执行完整性说明,让研究结果更容易核查、复盘和继续扩展。

一、评估概览

本次评估从实际任务表现Token 效费比两个维度对 deep-research skill 进行全面评审。设计 3 个递进复杂度的研究场景(聚焦技术研究、多视角分析、跨领域综合),每个场景分别运行 with-skill 和 without-skill 配置,共 3 场景 × 2 配置 = 6 次独立 subagent 运行,对照 27 条 assertion 进行评分。

维度 With Skill Without Skill 差异
Assertion 通过率 27/27 (100%) 9/27 (33.3%) +66.7 百分点
7-section 模板合规 3/3 全对 0/3 Skill 独有
编号引用格式 [1]-[n] 3/3 全对 0/3 Skill 独有
来源可信度标注 3/3 全对 0/3 Skill 独有
内容质量(深度/广度/数据) 3/3 全对 3/3 全对 无差异
Skill Token 开销 ~1,350 tokens 0
每 1% 通过率提升的 Token 成本 ~20 tokens 所有评估 skill 中最优

关键发现:deep-research skill 的核心价值是结构化纪律,而非内容质量提升。 基础模型已具备出色的研究能力(广度、深度、数据引用均优),但缺乏一致的报告结构。Skill 的 7-section 模板 + 编号引用 + 可信度标注填补了这一空白。


二、测试方法

2.1 场景设计

场景 用户请求 核心考察点 Assertions
Eval 1: 聚焦技术研究 "Research Go generics adoption — patterns, best practices, pitfalls" 模板合规、引用格式、技术深度 10
Eval 2: 多视角分析 "Research AI code review tools — developer, team lead, security perspectives" 多视角覆盖、争议识别、平衡性 8
Eval 3: 跨领域综合 "Research OSS maintainer burnout — causes, strategies, evidence" 证据分层、共识/争议区分、研究空白 9

2.2 执行方式

  • With-skill 运行先读取 SKILL.md,按其 Research Process 和 Output Format 执行
  • Without-skill 运行不读取任何 skill,按模型默认行为生成研究报告
  • 所有运行均可使用 WebSearch 和 WebFetch 工具查找真实来源
  • 6 个 subagent 并行运行

2.3 Skill 特征

deep-research 是一个单文件 skill(仅 SKILL.md,无参考文件),193 行,985 单词,~1,350 tokens。其核心组件:

组件 行数 估算 Token
Research Process(5 步流程) ~30 ~200
Output Format(7-section 模板) ~30 ~200
Source Evaluation Criteria ~8 ~60
完整示例(Intermittent Fasting) ~80 ~550
其他(description/frontmatter/headers) ~45 ~340
合计 193 ~1,350

三、Assertion 通过率

3.1 总览

场景 Assertions With Skill Without Skill 差值
Eval 1: Go 泛型研究 10 10/10 (100%) 3/10 (30.0%) +70.0%
Eval 2: AI 代码审查 8 8/8 (100%) 3/8 (37.5%) +62.5%
Eval 3: OSS 维护者倦怠 9 9/9 (100%) 3/9 (33.3%) +66.7%
总计 27 27/27 (100%) 9/27 (33.3%) +66.7%

3.2 逐项评分明细

Eval 1: Go 泛型研究

# Assertion With Skill Without Skill
A1 "Executive Summary" 区段存在
A2 "Key Findings" 区段含编号引用 [1]-[n] ✅ (6 findings)
A3 "Detailed Analysis" 区段含子主题 ✅ (7 subtopics)
A4 "Areas of Consensus" 区段 ✅ (6 points)
A5 "Areas of Debate" 区段 ✅ (6 points)
A6 "Sources" 区段用编号 [1]-[n] 引用 ✅ (18 sources)
A7 "Gaps and Further Research" 区段 ✅ (8 gaps)
A8 ≥3 个独立来源 ✅ (18) ✅ (11)
A9 来源含可信度标注
A10 Findings 包含具体数据点

Eval 2: AI 代码审查多视角分析

# Assertion With Skill Without Skill
B1 全部 7 个模板区段存在
B2 覆盖 3 个视角(开发者/管理者/安全)
B3 ≥4 个独立来源 ✅ (19) ✅ (10)
B4 引用使用编号 [1]-[n] 格式
B5 Sources 区含可信度标注
B6 Areas of Debate 区标识真正分歧 ✅ (6 debates)
B7 平衡覆盖优劣两面
B8 提及具体工具或研究

Eval 3: OSS 维护者倦怠研究

# Assertion With Skill Without Skill
C1 全部 7 个模板区段存在
C2 ≥4 个独立来源 ✅ (29) ✅ (~30)
C3 引用使用编号 [1]-[n] 并在正文引用
C4 来源含可信度评估
C5 策略含证据分层(强/中/弱)
C6 覆盖三大主题(原因/策略/证据)
C7 共识与争议明确区分
C8 Gaps 区提出具体研究方向 ✅ (8 gaps)
C9 包含数据点和研究引用

3.3 Without-Skill 失败的 18 条 Assertion 归类

失败类型 次数 涉及 Eval 说明
缺少 7-section 模板中的特定区段 12 1/2/3 Key Findings (3), Areas of Consensus (3), Areas of Debate (3), Gaps and Further Research (3)
缺少编号 [1]-[n] 引用格式 3 1/2/3 使用内联 URL 或参考表格,无统一编号
缺少来源可信度标注 3 1/2/3 列出来源但无 "peer-reviewed / authoritative / moderate credibility" 标注

注意:所有 18 条失败都是结构性/格式失败,不是内容质量失败。Without-skill 在内容维度(来源数量、数据点、视角覆盖、证据分层)上全部通过。

3.4 趋势分析

场景复杂度 With-Skill 优势 失败类型
Eval 1(聚焦技术) +70.0%(7 failures) 全部结构性
Eval 2(多视角) +62.5%(5 failures) 全部结构性
Eval 3(跨领域) +66.7%(6 failures) 全部结构性

Skill 优势在三个场景间高度稳定(62.5%-70.0%),不像其他 skill 有显著的复杂度趋势。原因是 Skill 的核心价值——模板合规——与场景复杂度无关:无论研究什么主题,7-section 模板和引用格式要么遵守要么不遵守。


四、逐维度对比分析

4.1 报告结构(7-Section 模板)

这是 Skill 独有的差异化产出,贡献 12 条 assertion 差值。

区段 With Skill 3/3 Without Skill 产出替代
Executive Summary ✅ 始终存在 ✅ 通常存在(2/3 有标题)
Key Findings ✅ 简洁要点 + 引用 ❌ 无独立区段;findings 分散在各节
Detailed Analysis ✅ 有子标题的深入分析 ⚠️ 通常有类似内容但命名不同
Areas of Consensus ✅ 独立区段 ❌ 无;共识信息隐含在正文中
Areas of Debate ✅ 独立区段 ❌ 无;争议信息零散分布
Sources ✅ 编号 + 可信度 ⚠️ 存在但格式各异(表格/列表/内联)
Gaps and Further Research ✅ 前瞻性研究方向 ❌ 无独立区段或仅简短提及

实际价值: - Areas of Consensus + Debate 区分是最有价值的结构元素——它迫使研究者明确区分"已确认"和"仍有争议"的发现,防止读者把初步发现误当定论 - Gaps 区段驱动前瞻性思维——Without-skill 的产出是"此刻状态的快照",With-skill 增加了"未来研究方向"的维度 - Key Findings 区段为忙碌的读者提供快速概览——Without-skill 的读者需要通读全文才能提取要点

4.2 引用格式(编号 [1]-[n])

维度 With Skill Without Skill
引用格式 [1], [2], ..., [n] — 正文编号 + 末尾完整引用 内联 URL、表格、括号引用、author-year 格式混用
交叉引用 正文中的 [1][2] 可立即在 Sources 区找到对应来源 需手动在不同格式间匹配
一致性 3/3 场景格式完全一致 3/3 场景格式各不相同

分析: Without-skill 的 Eval 1 使用了 Markdown 表格列出来源(含 URL 和"Key Contribution"),Eval 2 使用了编号表格,Eval 3 按类别列出来源。三个场景引用格式互不相同。With-skill 的 3 个场景引用格式完全一致:正文 [n],末尾 [n] Full citation (credibility note)

4.3 来源可信度标注

场景 With Skill Without Skill
Eval 1 18 sources,每个标注如 "(Official Go team guidance; highest credibility)" 11 sources,仅 "Key Contribution" 列
Eval 2 19 sources,每个标注如 "(Pre-print; moderate credibility)" 10 sources,仅 "Type" 列
Eval 3 29 sources,每个标注如 "(Peer-reviewed conference paper; high credibility)" ~30 sources 按 Academic/Industry 分类,无逐条可信度

实际价值: 可信度标注帮助读者快速评估证据权重。例如 Eval 3 中 With-skill 明确标注 "self-reported survey data, not a randomized trial, but the effect sizes are large",让读者知道 Tidelift 数据的局限性。Without-skill 仅列出来源名称,不评估其权威性。

4.4 内容质量对比

维度 With Skill Without Skill 差异
来源数量 18 / 19 / 29 11 / 10 / ~30 相当或 With-skill 略多
数据点密度 无显著差异
代码示例(Eval 1) 多个完整 Go 代码块 多个完整 Go 代码块 无显著差异
性能数据(Eval 1) PlanetScale benchmark 表格 DeepSource 引用 + 定性描述 With-skill 略优
工具对比表格(Eval 2) 5 工具 × 3 维度表 5 工具 × 3 维度表(不同数据) 相当
证据分层(Eval 3) Strong/Moderate/Weak + Consensus/Debate Strongest/Moderate/Weak/Absent 相当
WebSearch 使用 广泛(12+ searches/eval) 广泛(8+ searches/eval) 相当
研究深度 优秀 优秀 无显著差异

关键结论: 基础模型在内容质量上已经非常出色。With-skill 和 Without-skill 在来源数量、数据密度、分析深度上几乎无差异。Skill 的核心增量完全在结构化模板引用格式规范上。


五、Token 效费比分析

5.1 Skill 体积

deep-research 是一个极轻量级 skill——单文件,无参考资料,固定 ~1,350 tokens 开销。

文件 行数 单词 字节 估算 Token
SKILL.md 193 985 6,995 ~1,350
Description(始终在 context) ~40 ~50
参考资料 0
总计 193 985 6,995 ~1,350

5.2 Token 换取的质量提升

指标 数值
With-skill 通过率 100% (27/27)
Without-skill 通过率 33.3% (9/27)
通过率提升 +66.7 百分点
每修复 1 条 assertion 的 Token 成本 ~75 tokens
每 1% 通过率提升的 Token 成本 ~20 tokens

5.3 Token 分段效费比

模块 估算 Token 关联 Assertion 差值 效费比
Output Format 模板 ~200 12 条(7-section 模板 × 3 evals,扣除 Executive Summary) 极高 — 17 tok/assertion
引用格式规则([1]-[n] + 可信度) ~80 6 条(编号格式 3 + 可信度标注 3) 极高 — 13 tok/assertion
Research Process(5 步流程) ~200 间接贡献(驱动系统化研究方法) — 无直接 assertion
Source Evaluation Criteria ~60 间接贡献(驱动可信度标注内容) — 间接贡献
完整示例(Intermittent Fasting) ~550 间接贡献(示范模板使用方式) — 占 41% tokens 但无直接 assertion
其他(frontmatter/headers) ~260 0 条 — 基础框架

5.4 高杠杆 vs 低杠杆指令

高杠杆(~280 tokens → 18 条 assertion 差值): - Output Format 模板定义(~200 tok → 12 条) - 引用格式 + 可信度规则(~80 tok → 6 条)

中杠杆(~260 tokens → 间接贡献): - Research Process 5 步流程(~200 tok) - Source Evaluation Criteria(~60 tok)

低杠杆(~810 tokens → 0 条直接差值): - 完整示例(~550 tok)— 占总量 41%,但示范效应可能对模板遵从有间接贡献 - 其他框架内容(~260 tok)

5.5 Token 效率评级

评级 结论
整体 ROI 极优 — ~1,350 tokens 换取 +66.7% 通过率
高杠杆 Token 比例 ~21%(280/1,350)直接贡献 18/18 条 assertion 差值
低杠杆 Token 比例 ~60%(810/1,350)无直接 assertion 贡献
参考资料效费比 N/A — 无参考资料
示例效费比 待优化 — 550 tokens(41%)用于一个示例,压缩空间大

5.6 与其他 Skill 的效费比对比

指标 deep-research yt-dlp-downloader go-makefile-writer tdd-workflow
SKILL.md Token ~1,350 ~2,370 ~1,960 ~2,100
总加载 Token ~1,350 ~5,100-5,730 ~4,100-4,600 ~3,600-4,800
通过率提升 +66.7% +55.0% +31.0% +46.2%
每 1% 的 Token(SKILL.md) ~20 tok ~43 tok ~63 tok ~45 tok
每 1% 的 Token(full) ~20 tok ~95 tok ~149 tok ~92 tok

deep-research 的 Token 效费比在所有已评估 skill 中最优,原因: 1. 单文件,零参考资料 — 固定 ~1,350 tokens 开销,无条件加载复杂性 2. 基础模型研究能力缺口精准 — 缺的恰好是结构模板(容易用少量 tokens 填补),而非领域知识 3. 模板指令极其紧凑 — 7-section 定义仅需 ~200 tokens 即可驱动 12 条 assertion 差值


六、与基础模型能力的边界分析

6.1 基础模型已具备的能力(Skill 无增量)

能力 证据
WebSearch + WebFetch 信息收集 3/3 场景均使用 8-12+ 次搜索
多来源综合 3/3 场景引用 10-30 个来源
具体数据点引用 3/3 场景包含数字、百分比、研究结果
多视角覆盖 Eval 2 正确覆盖开发者/管理者/安全专家
证据分层(强/中/弱) Eval 3 without-skill 自行实现 Strongest/Moderate/Weak 分层
代码示例和 benchmark 数据 Eval 1 without-skill 包含完整 Go 代码和性能表格
平衡的优劣分析 3/3 场景覆盖正反两面

6.2 基础模型的能力缺口(Skill 填补)

缺口 证据 风险等级
无一致的报告模板 3/3 场景使用不同结构 — 跨报告对比困难
缺少 Areas of Consensus/Debate 区分 3/3 场景无独立区段 — 读者难以区分已确认和未定论
缺少 Key Findings 快速概览 3/3 场景无独立区段 — 读者可自行提取
缺少 Gaps and Further Research 区段 3/3 场景无或仅简短提及 — 缺失前瞻性视角
引用格式不一致 3/3 场景格式各异 — 功能不受影响
无来源可信度标注 3/3 场景无逐条可信度评估 — 读者无法快速评估证据权重

核心发现: 基础模型的"研究能力"(搜索、综合、分析)极为出色,但"研究报告写作纪律"(结构一致性、引用规范、可信度评估)有显著缺口。Skill 填补的恰好是后者。


七、综合评分

7.1 分维度评分

维度 With Skill Without Skill 差值
报告结构合规 5.0/5 1.0/5 +4.0
引用格式与可信度 5.0/5 1.5/5 +3.5
共识/争议区分 5.0/5 1.0/5 +4.0
前瞻性(Gaps 区段) 5.0/5 1.5/5 +3.5
内容深度与广度 5.0/5 4.5/5 +0.5
来源数量与质量 5.0/5 4.5/5 +0.5
综合均值 5.0/5 2.33/5 +2.67

7.2 加权总分

维度 权重 得分 加权
Assertion 通过率(delta) 25% 10/10 2.50
报告结构合规 20% 10/10 2.00
引用格式与可信度 15% 10/10 1.50
共识/争议区分 + 前瞻性 10% 10/10 1.00
Token 效费比 15% 10/10 1.50
内容质量增量 10% 2.0/10 0.20
来源数量/质量增量 5% 2.0/10 0.10
加权总分 8.80/10

内容质量和来源增量评分较低反映了一个重要事实:基础模型的研究能力本身已经很强,Skill 的价值集中在结构化报告写作上而非信息收集或分析深度。这不是 Skill 的缺陷,而是其设计定位的准确反映。


八、评估材料

材料 路径
Eval 1 with-skill 输出 /tmp/research-eval/eval-1/with_skill/response.md
Eval 1 without-skill 输出 /tmp/research-eval/eval-1/without_skill/response.md
Eval 2 with-skill 输出 /tmp/research-eval/eval-2/with_skill/response.md
Eval 2 without-skill 输出 /tmp/research-eval/eval-2/without_skill/response.md
Eval 3 with-skill 输出 /tmp/research-eval/eval-3/with_skill/response.md
Eval 3 without-skill 输出 /tmp/research-eval/eval-3/without_skill/response.md