deep-research skill 解析¶

deep-research 是一套面向事实型与分析型研究任务的带来源支撑研究框架。它的核心设计思想是：研究任务首先要把问题范围、证据要求、检索预算、校验强度和交付结构定义清楚，再进入检索、提炼与结论生成。 因此它把范围分类、歧义消解、证据要求、研究模式、幻觉风险意识、预算控制、内容提取和执行真实性串成一条严格串行流程。

1. 定义¶

deep-research 用于技术调研、方案比较、事实核验、趋势分析、代码库研究和混合型研究任务。它输出的不只是“研究结论”，还包括：

问题归一化后的研究范围
证据链要求与置信度约束
实际执行的方法、检索与提取过程
共识与争议的拆分
来源质量说明与研究缺口

从设计上看，它更接近“带门禁的研究执行框架”，而不是一个自由发挥的网页搜索提示词。

2. 背景与问题¶

这个 skill 要解决的核心问题，是研究任务在没有明确约束时，很容易同时出现“结论来得太快、证据层级太弱、引用不可核查、结构不稳定”四类问题。

在没有框架约束时，常见失真通常集中在 8 类：

问题	典型后果
研究范围没有先收束	主题越查越散，最后无法回答原问题
比较维度或时间边界不清	技术对比、趋势分析容易把不同时间和口径的数据混在一起
没有先定义证据链	推荐类结论只靠一两篇博客支撑，强度不足
直接根据搜索摘要下结论	把 snippet 当成证据，导致误读或引用失真
对模型输出缺少反幻觉约束	URL、论文名、版本信息、性能数字容易被说得过于确定
不限制检索预算	查询轮次失控，时间花掉很多，信息增量却越来越低
输出结构随任务波动	不同研究报告难以横向比较，也难以复用
不诚实暴露缺口	找不到关键证据时仍硬凑结论，导致误导性很强

deep-research 的设计逻辑，就是把“研究行为”从临场发挥，收束成一套可验证、可审计、可复用的流程。

3. 与常见替代方案的对比¶

先看它与几种常见做法的区别：

维度	`deep-research` skill	直接让模型“研究一下”	只做 Web 搜索后手写总结
作用域收束	强	弱	中
歧义处理	强	弱	弱
证据链要求	强	弱	弱
反幻觉校验	强	弱	弱
摘要与正文区分	强	弱	弱
内容提取要求	强	弱	中
预算控制	强	弱	弱
结构化交付	强	中	弱
缺口暴露	强	弱	弱

它的价值不在于替代模型的分析能力，而在于给研究过程加上边界、证据纪律和交付纪律。

4. 核心设计逻辑¶

4.1 先做范围分类和歧义消解¶

deep-research 把范围分类 Gate 和歧义消解 Gate 放在最前面，要求先确认研究类别、研究目标、比较维度和深度要求，再开始任何检索。

这样设计的原因很直接：很多研究失败，不是因为资料查得不够多，而是因为一开始研究对象就没有定义清楚。比如：

“research microservices” 这种请求过宽，必须先收束成具体问题
趋势分析如果不限定时间范围，很容易混入过期资料
技术比较如果不先说明要比性能、成本、生态还是运维复杂度，最后结论会失焦

把这两道 Gate 前置，本质上是在先回答“要研究什么”，而不是一上来就搜索。

4.2 证据链要求必须先于检索¶

第三道强制门禁是证据要求。它要求在开始检索之前，先定义不同类型结论最低需要什么证据链。

这层设计非常关键，因为“研究结论”本身不是同一种东西：

单一事实主张，适合用官方或一手来源核验
最佳实践建议，需要官方依据加实践者经验
技术对比，需要多份独立 benchmark 或评测
趋势判断，需要跨时间的多源数据
快速变化或存在争议的话题，需要多层来源并显式处理冲突

如果不先规定证据门槛，模型很容易在“刚找到一点像答案的东西”时提前收尾。deep-research 要做的是先定义“什么叫够了”，再决定何时形成结论。

4.3 研究模式和预算控制必须成对出现¶

deep-research 不只划分 Quick / Standard / Deep 三种模式，还为每一种模式设置了 retrieval 和 content extraction 的上限。

这是一个很成熟的设计，因为研究任务存在两个常见偏差：

查得太少，证据不足却结论完整
查得太多，检索轮次膨胀但新增信息很有限

模式解决“要查多深”，预算解决“最多查到哪里停”。两者合在一起，才能让研究既不过浅，也不过度失控。

这种设计还带来一个重要好处：用户能预期交付成本。对于 quick check，用户要的是快速核验；对于 deep dive，用户才愿意为更高的证据完整度付出更多检索成本。

4.4 幻觉风险意识会被提升为独立门禁¶

deep-research 把幻觉风险意识单独设为强制门禁，并配有专门的 hallucination-and-verification.md 参考资料。

这说明它对研究任务的理解非常清楚：研究输出最危险的部分，不是“观点不够深”，而是看起来很像真的，但实际上无法验证。在研究场景里，这类问题尤其常见：

编造 URL、论文标题或作者名
把过期信息当成当前事实
用绝对化表达包装不确定结论
把相近产品、版本或概念混为一谈
只选支持自己结论的证据，忽略反例

把这层做成独立门禁，而不是几条零散提醒，意味着 skill 把“反幻觉”视为研究正确性的基础设施。

4.5 强制要求先提取正文内容 vs 只看搜索摘要¶

内容提取 Gate 是 deep-research 最关键的设计之一。它明确规定：必须先读取真实来源内容，不能只依据搜索摘要、标题或二手转述形成关键结论。

这层设计解决的是研究流程里最常见、也最隐蔽的错误：

搜索摘要只保留结论，不保留上下文
页面标题容易带营销语气，不能代表正文证据强度
二手文章会丢失 benchmark 方法学、版本范围或实验条件

因此，skill 要求先通过 fetch-content 提取页面正文，再进行 synthesis。它甚至明确规定：关键来源提取失败时，应该把问题记入 gaps，而不是假装证据已经成立。

这让 deep-research 和“会搜索”的普通工作流形成了本质区别。它要求的不是“看到来源”，而是“真的读过来源”。

4.6 执行真实性要单独强调¶

执行真实性门禁要求研究报告必须如实说明：

检索是否真的执行了
内容是否真的提取了
实际提取、引用了多少来源
哪些结论来自正文，哪些只是 snippet 线索

这层设计的重要性在于，研究任务特别容易出现“表面上像是做过了”的假象。没有执行完整性约束，模型很容易写出一份看起来很完整的报告，但里面混杂了假定、想象和未执行步骤。

执行真实性的作用，就是把“研究报告”从纯文本产物，变成一个带执行证据的交付物。

4.7 Honest Degradation 比“硬凑完整答案”更重要¶

deep-research 支持 Full / Partial / Blocked 三种降级结果，并且要求显式说明 gap、原因和下一步建议。

这个设计非常有工程价值，因为研究任务经常会遇到这些情况：

关键资料被 paywall 挡住
某些领域内容没有被公开搜索引擎很好索引
时间窗口太新，资料还不充分
预算已经到顶，但证据链仍未满足

如果没有降级设计，模型通常会走向两个坏方向：

明明证据不足，却把语气写得非常确定
一旦遇到障碍就停止，没有可继续推进的结果

deep-research 选择了第三条路：在证据不足时，诚实地报告当前能确认到什么、还缺什么、下一步该如何补证据。

4.8 拆分共识、争议、来源质量与缺口的输出合同¶

当前 skill 在 Standard 和 Deep 模式下要求 9 个部分；Quick 模式可以省略第 5、6 部分。在完整报告结构里，最有设计价值的几块是：

Consensus vs Debate
Source Quality Notes
Gaps & Limitations

这些部分的意义，不只是让报告看起来更完整，而是让读者在很短时间内回答四个关键问题：

哪些结论已经比较稳
哪些地方来源之间仍有分歧
当前证据到底强不强
哪些空白会影响决策

这也是 deep-research 和普通“资料汇总”之间的关键区别。前者在交付一个研究判断框架，后者往往只是在堆材料。

4.9 同时覆盖 web research、codebase research 和 hybrid research¶

deep-research 在范围分类阶段就把任务划分为 comparative、trend、claim verification、technical deep-dive、codebase research 和 hybrid research。

这说明它从一开始就没有把研究理解成“只上网搜资料”。在工程实践里，很多真正有价值的研究任务都是混合型的：

先从代码库里找出现状
再用外部资料校验最佳实践或替代方案
最后把内部约束和外部证据拼起来形成建议

把 codebase research 和 hybrid research 纳入同一框架，能让 skill 直接覆盖更接近真实研发决策的场景，而不只适合做公开信息收集。

4.10 references 采用“基础必载 + 细则按需”的加载方式¶

当前版本的 deep-research 已经不是一个单文件 skill。它把输出合同作为固定前置加载内容，把高风险校验协议和 programmer-specific research patterns 作为按需加载的 references。

这种设计比“把所有规则都塞进 SKILL.md”更合理，原因有三点：

低频但高重要性的规则，可以在需要时展开，不污染默认上下文
不同研究任务关注点不同，没必要每次都加载全部细则
引用协议、反幻觉协议、编程研究模式本来就适合独立维护

这是一种典型的生产级 skill 设计：基础流程和输出合同常驻，重型细则按需加载。

4.11 把研究流程做成脚本化子命令 vs 只写自然语言步骤¶

deep-research 不只是文档规则，还显式绑定了 retrieve、fetch-content、search-codebase、validate、report 这些子命令。

这层设计的价值在于，它把“研究方法”从抽象建议落到可执行步骤：

检索与提取可以复现
验证步骤可以独立运行
报告生成有明确输入输出
后续可以更容易做自动化测试和回归验证

这也是它比普通提示词更强的一点：不仅规定“应该怎么想”，还规定“应该怎么执行”。

5. 这个设计解决了哪些具体问题¶

结合当前 SKILL.md 和配套 references，可以把它解决的问题归纳为：

问题类型	skill 中的对应设计	实际效果
研究范围漂移	范围分类 + 歧义消解	先收束问题，再开始检索
证据强度不足	证据要求 Gate	不同类型结论对应不同证据门槛
检索过浅或过深	研究模式 + 预算控制	保持成本和完整度平衡
把 snippet 当证据	内容提取 Gate	关键结论基于实际正文而不是摘要
模型幻觉污染研究结果	幻觉风险意识 + 验证协议	降低伪引用、伪事实和过度确定表达
研究步骤不可审计	执行真实性门禁	交代是否执行、执行到哪一步、引用了多少来源
证据不足时硬凑结论	Honest Degradation	明确区分 Full / Partial / Blocked
报告难以复用和比较	输出契约	固定结构便于横向比较和沉淀
只会做外部检索，不会结合代码库	Codebase / Hybrid Research 分类 + `search-codebase`	让研究更贴近真实研发决策

6. 主要亮点¶

6.1 把“研究”变成了带门禁的执行流程¶

很多 research workflow 的问题，在于只有“查资料”这一步。deep-research 的亮点，是把前置判断、证据门槛、提取要求、验证协议和交付格式全部显式化。

6.2 对反幻觉的处理非常系统¶

它没有停留在“注意别幻觉”这种口号层面，而是把 hallucination type、verification priority、source tier、query pattern 和 insufficient evidence protocol 组织成了一套完整机制。

6.3 对“证据是否真的读过”要求很严格¶

强制 content extraction 是这个 skill 最重要的质量控制点之一。它直接抬高了研究结论的可靠性下限。

6.4 结构化交付非常适合沉淀为长期资产¶

在 Standard 和 Deep 模式下，Research Question、Method、Executive Summary、Key Findings、Detailed Analysis、Consensus vs Debate、Source Quality Notes、Sources、Gaps & Limitations 这套结构天然适合复盘、复用和更新；Quick 模式则允许为速度省略其中的部分展开区段。

6.5 很适合做混合型研发研究¶

很多技能只擅长 web search 或 code search 其中之一。deep-research 的优势在于两边都覆盖，并且把它们纳入同一套证据和交付框架。

6.6 当前版本比评估快照更强调执行完整性¶

现有评估报告最强地证明了它在结构纪律上的价值，例如模板一致性、编号引用和来源可信度标注。与此同时，当前 SKILL.md 已经扩展为 8 个强制门禁、9-section 输出契约和多份 references。也就是说，评估报告验证了它的核心方向，而当前 skill 在此基础上进一步强化了执行门禁和反幻觉约束。

7. 什么时候适合用，什么时候不该硬用¶

场景	是否适合	原因
技术方案比较	适合	证据链、模式选择、来源质量说明都很有价值
事实核验 / claim verification	适合	反幻觉协议和校验优先级正好匹配
趋势分析	适合	能显式要求时间窗口和跨时间来源
结合代码库现状做外部调研	适合	Hybrid research 正是它的重点场景
需要形成可复用研究报告	适合	输出契约很适合沉淀
只想随手问一个常识问题	不一定需要	直接回答通常更轻量
完全依赖内部私有资料、无法外部检索	适用性有限	需要额外数据接入方式
只需要主观创意发散	不适合	这不是它的设计目标

8. 结论¶

deep-research 的真正亮点，在于它把研究任务里最容易失真的部分系统化了：先明确问题边界，再定义证据门槛，随后约束检索深度与预算，强制读取正文内容，用反幻觉协议校验高风险结论，最后用固定合同交付共识、争议、来源质量和研究缺口。

从设计上看，这个 skill 体现了一个非常清晰的原则：研究质量首先取决于证据纪律和交付纪律，其次才是表达能力。 这也是它特别适合做工程决策、技术比较和事实核验类任务的原因。

9. 文档维护¶

当以下内容发生变化时，这份文档应该同步更新：

skills/deep-research/SKILL.md 中的强制门禁、研究模式、预算、安全规则或输出契约发生变化。
skills/deep-research/references/output-contract-template.md、hallucination-and-verification.md、research-patterns.md 中的关键协议发生变化。
skills/deep-research/scripts/deep_research.py 的子命令、执行方式或输出字段发生变化。
evaluate/deep-research-skill-eval-report.zh-CN.md 中支撑本文判断的关键结论发生变化。
skill 的结构再次演进，导致评估快照与当前实现差异继续扩大。

建议按季度复查一次；如果 deep-research 的 gate、reference 或脚本结构有明显重构，则应立即复查。

10. 相关阅读¶

skills/deep-research/SKILL.md
skills/deep-research/references/output-contract-template.md
skills/deep-research/references/hallucination-and-verification.md
skills/deep-research/references/research-patterns.md
skills/deep-research/scripts/deep_research.py
evaluate/deep-research-skill-eval-report.zh-CN.md