Skip to content

google-search Skill 评审报告

评估框架: skill-creator 评估日期: 2026-03-12 评估对象: google-search


google-search 是一个把“帮我搜一下”转成可验证搜索流程的 research/search skill,适合用于事实查询、错误调试、官方文档检索、技术比较以及需要来源支撑的公开信息搜集。它最突出的三个亮点是:先做问题分类、证据链定义和模式选择,把搜索从“找链接”提升为“找结论所需证据”;输出里会附带可信度、来源层级、预算状态和可复用查询,让搜索过程本身可复盘、可继续;同时强调执行完整性和降级声明,能明确区分“已验证结论”和“证据不足的部分结果”。

一、评估概览

本次评估从实际任务表现Token 效费比两个维度对 google-search skill 进行全面评审。设计 3 个递进复杂度的搜索场景(Quick 模式事实查询、Standard 模式错误调试、Deep 模式框架对比),每个场景分别运行 with-skill 和 without-skill 配置,共 3 场景 × 2 配置 = 6 次独立 subagent 运行,对照 27 条 assertion 进行评分。

维度 With Skill Without Skill 差异
Assertion 通过率 27/27 (100%) 7/27 (25.9%) +74.1 百分点
Output Contract 8 字段全满 3/3 全对 0/3 Skill 独有
Confidence + Source-tier 标签 3/3 全对 0/3 Skill 独有
可复用搜索查询 3/3 全对 0/3 Skill 独有
证据链状态追踪 3/3 全对 0/3 Skill 独有
内容质量(答案正确性/深度) 3/3 全对 3/3 全对 无差异
Skill Token 开销(SKILL.md 单文件) ~3,100 tokens 0
Skill Token 开销(含条件加载参考资料) ~6,400–7,800 tokens 0
每 1% 通过率提升的 Token 成本 ~42 tok(SKILL.md)/ ~99 tok(full)

关键发现:google-search skill 的核心价值是搜索纪律和报告规范,而非搜索内容质量。 基础模型已具备出色的搜索和信息综合能力(答案正确性、来源覆盖、代码示例质量均优),但完全缺乏搜索过程的元数据记录(模式选择、预算控制、证据链追踪、降级声明、可信度标签、可复用查询)。Skill 填补的正是这一"搜索操作纪律"的空白。


二、测试方法

2.1 场景设计

场景 用户请求 预期模式 Assertions
Eval 1: 事实查询 "Go database/sql 包 MaxOpenConns 和 MaxIdleConns 默认值" Quick 9
Eval 2: 错误调试 "gRPC context deadline exceeded — works locally, fails in production" Standard 9
Eval 3: 框架对比 "Compare Gin/Echo/Fiber performance for high-traffic REST API 2026" Deep 9

2.2 执行方式

  • With-skill 运行先读取 SKILL.md 及相关参考资料(query-patterns、programmer-search-patterns、source-evaluation 等)
  • Without-skill 运行不读取任何 skill,按模型默认行为搜索
  • 所有运行均可使用 WebSearch 和 WebFetch 工具
  • 6 个 subagent 并行运行(with-skill 使用默认模型,without-skill 使用 fast 模型)

2.3 Skill 特征

google-search 是一个多文件 skill(1 个 SKILL.md + 6 个参考文件),条件加载设计。

文件 单词数 估算 Token 加载条件
SKILL.md 2,085 ~3,100 始终加载
references/query-patterns.md 1,191 ~1,800 始终加载(查询构建)
references/programmer-search-patterns.md 1,031 ~1,500 程序员搜索类
references/source-evaluation.md 911 ~1,400 来源评估/冲突处理
references/ai-search-and-termination.md 549 ~800 终止/升级决策
references/high-conflict-topics.md 947 ~1,400 高冲突主题
references/chinese-search-ecosystem.md 279 ~400 中文/中国话题
SKILL.md 描述(always in context) ~60 ~80 始终

各场景实际加载量

场景 加载文件 估算 Token
Eval 1 (Quick, programmer) SKILL.md + query-patterns + programmer-search ~6,400
Eval 2 (Standard, programmer) SKILL.md + query-patterns + programmer-search + source-evaluation ~7,800
Eval 3 (Deep, comparison) SKILL.md + query-patterns + programmer-search + source-evaluation ~7,800
平均 ~7,300

三、Assertion 通过率

3.1 总览

场景 Assertions With Skill Without Skill 差值
Eval 1: 事实查询(Quick) 9 9/9 (100%) 3/9 (33.3%) +66.7%
Eval 2: 错误调试(Standard) 9 9/9 (100%) 2/9 (22.2%) +77.8%
Eval 3: 框架对比(Deep) 9 9/9 (100%) 2/9 (22.2%) +77.8%
总计 27 27/27 (100%) 7/27 (25.9%) +74.1%

3.2 逐项评分明细

Eval 1: Go database/sql 默认池大小(Quick 模式)

# Assertion With Skill Without Skill
A1 输出含 execution mode 标签 ✅ "Quick"
A2 输出含 degradation level ✅ "Full"
A3 结论直接回答问题
A4 输出含可复用查询(≥2) ✅(5 条)
A5 至少 1 条查询用 site:go.dev
A6 结论引用官方来源 ✅ go.dev, pkg.go.dev ✅ go.dev, pkg.go.dev
A7 输出含证据链状态 ✅ 显式表格
A8 结论含具体数值 ✅ MaxOpenConns=0, MaxIdleConns=2
A9 关键数字含 confidence + source-tier 标签 ✅ "High" + "Official"

Eval 2: gRPC context deadline exceeded(Standard 模式)

# Assertion With Skill Without Skill
B1 输出含 execution mode 标签 ✅ "Standard"
B2 输出含 degradation level ✅ "Full"
B3 结论含多个原因 ✅(5 个结构化原因) ✅(6 个原因)
B4 输出含可复用查询(≥3) ✅(5 条)
B5 至少 1 条查询定向 SO 或 GitHub site:github.com/grpc/grpc-go
B6 至少 1 条查询用引号精确匹配错误信息 "context deadline exceeded"
B7 来源含交叉验证(≥2 独立源) ✅(6 个独立来源) ✅(6 个参考来源)
B8 输出含证据链状态 ✅ 显式表格
B9 输出含 source assessment ✅ 可信度/时效/缺口/冲突/置信度论证

Eval 3: Go HTTP 框架对比(Deep 模式)

# Assertion With Skill Without Skill
C1 输出含 execution mode 标签(Deep) ✅ "Deep"
C2 输出含 degradation level ✅ "Partial"(诚实降级)
C3 结论含推荐建议 ✅ 决策树 + 框架定位 ✅ 决策矩阵 + 推荐
C4 输出含可复用查询(≥3) ✅(5 条含 gap-closing)
C5 关键数字含 confidence + source-tier 标签 ✅(14 个数字全标注)
C6 ≥3 个独立来源 ✅(5+ 来源含详细评估) ✅(16 来源)
C7 来源含可信度评估 ✅ Source Comparison Table(含 tier/credibility/gaps/recency/bias)
C8 输出含证据链状态 ✅ 显式链状态表
C9 对比覆盖 ≥3 框架含具体数据 ✅ Gin/Echo/Fiber + RPS + 延迟 + 星数

3.3 Without-Skill 失败的 20 条 Assertion 归类

失败类型 次数 说明
缺少 Output Contract 元数据字段 6 execution mode (3) + degradation level (3)
缺少可复用搜索查询 3 3/3 场景均无 reusable queries 区段
缺少证据链状态追踪 3 3/3 场景均无 evidence chain status
缺少 confidence + source-tier 标签 3 关键数字无双标签
缺少 source assessment 3 无可信度/bias/recency 评估
缺少搜索策略展示 2 无 site: 精确查询、无引号匹配

注意:与 deep-research 评估类似,所有 20 条失败都是搜索纪律/报告格式失败,不是内容质量失败。Without-skill 在答案正确性、来源覆盖、代码示例方面全部通过。

3.4 与 deep-research skill 的对比

指标 google-search deep-research
With-skill 通过率 100% 100%
Without-skill 通过率 25.9% 33.3%
差值 +74.1% +66.7%
失败类型 搜索纪律 + 报告格式 报告格式

google-search 的 assertion delta 更大,因为它要求的不仅是报告模板(deep-research 的 7-section),还包括搜索过程的元数据(模式、预算、证据链、降级级别、可复用查询、精确查询策略)。基础模型连这些概念都不产出。


四、逐维度对比分析

4.1 Output Contract(8 字段)

字段 With Skill 3/3 Without Skill 产出
1. Execution mode ✅ Quick/Standard/Deep ❌ 无模式概念
2. Degradation level ✅ Full/Partial/Blocked ❌ 无降级概念
3. Conclusion summary ✅(等效)
4. Evidence chain status ✅ 显式表格 ❌ 无追踪
5. Key evidence ✅ 结构化表格含贡献说明 ⚠️ 有来源列表但无结构化评估
6. Source assessment ✅ 可信度/偏见/时效/缺口/冲突 ❌ 无评估
7. Key numbers + 双标签 ✅ confidence + source-tier ❌ 有数字但无标签
8. Reusable queries ✅ 3-5 条含精确/扩展/填补策略 ❌ 无

实际价值: - Degradation level 在 Eval 3 中展现了最高价值——With-skill 诚实声明为 "Partial"(TechEmpower 数据来自第三方解读、无命名公司生产案例),而 Without-skill 直接给出结论不标注不确定性 - Evidence chain status 让读者能追踪 "哪些证据已满足、哪些缺失",避免把片面数据当完整结论 - Reusable queries 赋予读者"继续搜索"的能力——5 条精心设计的 Google 查询比一个答案更有持久价值

4.2 搜索策略纪律

维度 With Skill Without Skill
查询构建策略 Primary + Precision + Expansion 三变体 直接搜索,无显式策略
site: 域限定 ✅ site:go.dev, site:github.com/grpc/grpc-go 偶尔出现但非系统性
引号精确匹配 "context deadline exceeded" 未展示
查询预算控制 ✅ Quick 2 / Standard 5 / Deep 8 无预算概念
查询历史记录 ✅ Gate Execution Log ❌ 无记录
搜索后续策略 ✅ gap-closing 查询 ❌ 无

4.3 Confidence + Source-Tier 标签

Eval 3 的 With-skill 输出为 14 个关键数字全部标注了双标签:

| Fiber real-world RPS | ~36,000 | May 2024 | Medium | Primary (independent benchmark) |
| Fiber JSON RPS (TechEmpower R23) | ~735,000 | March 2025 | Low | Third-party interpretation of Official |

区分了 "Medium confidence from Primary source" 和 "Low confidence from Third-party interpretation",让读者知道 TechEmpower 数据经过第三方转述因此可信度降级。Without-skill 的 Eval 3 引用了 16 个来源和大量数字,但没有任何数字标注可信度或来源层级

4.4 诚实降级(Honest Degradation)

Eval 3 的 With-skill 输出最能展现此机制:

Degradation Level: Partial — Strong benchmark data and ecosystem analysis available. However: TechEmpower Round 23 Go-specific per-framework numbers could not be directly verified from TechEmpower's own site... Large-scale production experience reports... were not found from named companies with disclosed architectures.

这段降级声明明确告知读者两个具体不确定性,避免读者把对比结论当作完全确认的事实。Without-skill 的 Eval 3 同样没找到命名公司案例,但没有声明这一局限

4.5 内容质量对比

维度 With Skill Without Skill 差异
答案正确性 3/3 正确 3/3 正确 无差异
来源数量 2 / 6 / 5 4 / 6 / 16 Without-skill 略多(Eval 3)
代码示例 优秀(Eval 2 含 6 个代码块) 优秀(Eval 2 含 5 个代码块) 无显著差异
调试步骤(Eval 2) 6 步结构化调试流程 5 步调试流程 相当
框架对比表格(Eval 3) Source Comparison Table + Decision Tree Decision Matrix + Star 评分 各有优势
生产建议 优秀 优秀 无显著差异

关键结论: 与 deep-research skill 的评估发现一致——基础模型在内容维度已经非常出色,Skill 的增量完全在搜索纪律和报告元数据上。


五、Token 效费比分析

5.1 Skill 体积

文件 估算 Token 加载条件
SKILL.md ~3,100 始终
query-patterns.md ~1,800 始终
programmer-search-patterns.md ~1,500 程序员搜索
source-evaluation.md ~1,400 来源评估
ai-search-and-termination.md ~800 终止决策
high-conflict-topics.md ~1,400 高冲突
chinese-search-ecosystem.md ~400 中文话题
最大加载量 ~10,400 全部加载
典型加载量(程序员搜索) ~7,800 SKILL + query + programmer + source-eval
最小加载量(非程序员 Quick) ~4,900 SKILL + query

5.2 Token 换取的质量提升

指标 数值
With-skill 通过率 100% (27/27)
Without-skill 通过率 25.9% (7/27)
通过率提升 +74.1 百分点
每修复 1 条 assertion 的 Token 成本(SKILL.md) ~155 tok
每修复 1 条 assertion 的 Token 成本(典型加载) ~390 tok
每 1% 通过率提升的 Token 成本(SKILL.md) ~42 tok
每 1% 通过率提升的 Token 成本(典型加载) ~105 tok

5.3 Token 分段效费比

模块 估算 Token 关联 Assertion 差值 效费比
Output Contract(SKILL.md) ~300 6 条(mode 3 + degradation 3) 极高 — 50 tok/assertion
Confidence + Source-tier 规则 ~200 3 条 极高 — 67 tok/assertion
Reusable Queries 要求 ~100 3 条 极高 — 33 tok/assertion
Evidence Chain Gate(Gate 3) ~300 3 条 — 100 tok/assertion
Source Assessment 要求 ~150 3 条 — 50 tok/assertion
query-patterns.md ~1,800 2 条(site: + 引号策略) — 900 tok/assertion
programmer-search-patterns.md ~1,500 间接贡献(搜索质量) — 无直接 assertion
source-evaluation.md ~1,400 间接贡献(评估质量) — 无直接 assertion
Worked Examples(SKILL.md) ~500 0 条直接
Anti-Examples(SKILL.md) ~300 0 条直接
其他 Gates(1,2,4,5,6,7,8) ~450 间接贡献

5.4 高杠杆 vs 低杠杆指令

高杠杆(~1,050 tokens → 18 条 assertion 差值): - Output Contract 8 字段定义(~300 tok → 6 条) - Confidence + Source-tier 双标签规则(~200 tok → 3 条) - Reusable Queries 要求(~100 tok → 3 条) - Evidence Chain Gate(~300 tok → 3 条) - Source Assessment 要求(~150 tok → 3 条)

中杠杆(~5,150 tokens → 2 条直接 + 间接贡献): - query-patterns.md(~1,800 tok → 2 条 + 搜索质量间接) - programmer-search-patterns.md(~1,500 tok → 间接) - source-evaluation.md(~1,400 tok → 间接) - 其他 Gates(~450 tok → 间接)

低杠杆(~800 tokens → 0 条直接差值): - Worked Examples(~500 tok) - Anti-Examples(~300 tok)

5.5 与其他 Skill 的效费比对比

指标 google-search deep-research yt-dlp-downloader tdd-workflow go-makefile-writer
SKILL.md Token ~3,100 ~1,350 ~2,370 ~2,100 ~1,960
典型加载 Token ~7,800 ~1,350 ~5,100 ~3,600 ~4,100
通过率提升 +74.1% +66.7% +55.0% +46.2% +31.0%
每 1% 的 Token(SKILL.md) ~42 tok ~20 tok ~43 tok ~45 tok ~63 tok
每 1% 的 Token(典型加载) ~105 tok ~20 tok ~93 tok ~78 tok ~132 tok

google-search 在绝对通过率提升上最高(+74.1%),但 SKILL.md 层面的单位效费比(~42 tok/1%)与 yt-dlp-downloader(~43)和 tdd-workflow(~45)相当。典型加载效费比(~105 tok/1%)因参考文件较多而偏高。


六、与基础模型能力的边界分析

6.1 基础模型已具备的能力(Skill 无增量)

能力 证据
WebSearch 信息检索 3/3 场景均主动搜索并找到正确答案
官方来源优先 Eval 1 自行定位 go.dev 和 pkg.go.dev
错误信息搜索 Eval 2 自行搜索 gRPC error 并找到 GitHub issues
多来源综合 Eval 3 引用 16 个来源进行框架对比
代码示例生成 Eval 2 生成完整的调试代码片段
结构化对比表格 Eval 3 生成决策矩阵和星级评分

6.2 基础模型的能力缺口(Skill 填补)

缺口 证据 风险等级
无搜索模式/预算控制 3/3 场景无 Quick/Standard/Deep 概念 — 可能在简单问题上过度搜索或在复杂问题上不足
无降级声明 3/3 场景直接给结论不标注不确定性 — 读者把 Partial 当 Full
无证据链追踪 3/3 场景不追踪"需要什么证据、找到了什么" — 无法评估结论可靠性
无 confidence + source-tier 双标签 3/3 场景数字无标签 — 第三方转述和官方一手数据等权展示
无可复用查询 3/3 场景不输出搜索查询 — 用户无法继续搜索
无来源可信度评估 3/3 场景不评估来源偏见/时效/缺口 — 竞品博客和官方文档等权引用
无搜索策略展示 搜索过程不透明 — 对最终答案无直接影响

核心发现:基础模型的"搜索结果→答案"能力很强,但"搜索过程可审计性"和"结论可信度标注"为零。google-search skill 的价值集中在后两者。


七、综合评分

7.1 分维度评分

维度 With Skill Without Skill 差值
Output Contract 合规 5.0/5 0.5/5 +4.5
搜索纪律(模式/预算/策略) 5.0/5 1.0/5 +4.0
Confidence + Source-tier 5.0/5 0.5/5 +4.5
诚实降级 5.0/5 1.0/5 +4.0
可复用查询 5.0/5 0.0/5 +5.0
内容质量(答案正确性/深度) 5.0/5 4.5/5 +0.5
来源数量/多样性 5.0/5 4.5/5 +0.5
综合均值 5.0/5 1.71/5 +3.29

7.2 加权总分

维度 权重 得分 加权
Assertion 通过率(delta) 25% 10/10 2.50
Output Contract 合规 15% 10/10 1.50
搜索纪律 + 诚实降级 15% 10/10 1.50
Confidence + Source-tier 10% 10/10 1.00
可复用查询 10% 10/10 1.00
Token 效费比 10% 7.0/10 0.70
内容质量增量 10% 2.0/10 0.20
来源数量/质量增量 5% 2.0/10 0.10
加权总分 8.50/10

Token 效费比评分偏低(7.0/10)反映了参考文件较多导致典型加载量(~7,800 tok)较高的现实,尽管 SKILL.md 本身的效费比(~42 tok/1%)与同级 skill 相当。


八、评估材料

材料 路径
Eval 1 with-skill 输出 /tmp/gsearch-eval/eval-1/with_skill/response.md
Eval 1 without-skill 输出 /tmp/gsearch-eval/eval-1/without_skill/response.md
Eval 2 with-skill 输出 /tmp/gsearch-eval/eval-2/with_skill/response.md
Eval 2 without-skill 输出 /tmp/gsearch-eval/eval-2/without_skill/response.md
Eval 3 with-skill 输出 /tmp/gsearch-eval/eval-3/with_skill/response.md
Eval 3 without-skill 输出 /tmp/gsearch-eval/eval-3/without_skill/response.md