google-search Skill 评审报告 评估框架: skill-creator 评估日期: 2026-03-12 评估对象: google-search
google-search 是一个把“帮我搜一下”转成可验证搜索流程的 research/search skill,适合用于事实查询、错误调试、官方文档检索、技术比较以及需要来源支撑的公开信息搜集。它最突出的三个亮点是:先做问题分类、证据链定义和模式选择,把搜索从“找链接”提升为“找结论所需证据”;输出里会附带可信度、来源层级、预算状态和可复用查询,让搜索过程本身可复盘、可继续;同时强调执行完整性和降级声明,能明确区分“已验证结论”和“证据不足的部分结果”。
一、评估概览 本次评估从实际任务表现 和 Token 效费比 两个维度对 google-search skill 进行全面评审。设计 3 个递进复杂度的搜索场景(Quick 模式事实查询、Standard 模式错误调试、Deep 模式框架对比),每个场景分别运行 with-skill 和 without-skill 配置,共 3 场景 × 2 配置 = 6 次独立 subagent 运行,对照 27 条 assertion 进行评分。
维度 With Skill Without Skill 差异 Assertion 通过率 27/27 (100%) 7/27 (25.9%) +74.1 百分点 Output Contract 8 字段全满 3/3 全对 0/3 Skill 独有 Confidence + Source-tier 标签 3/3 全对 0/3 Skill 独有 可复用搜索查询 3/3 全对 0/3 Skill 独有 证据链状态追踪 3/3 全对 0/3 Skill 独有 内容质量(答案正确性/深度) 3/3 全对 3/3 全对 无差异 Skill Token 开销(SKILL.md 单文件) ~3,100 tokens 0 — Skill Token 开销(含条件加载参考资料) ~6,400–7,800 tokens 0 — 每 1% 通过率提升的 Token 成本 ~42 tok(SKILL.md)/ ~99 tok(full) — —
关键发现:google-search skill 的核心价值是搜索纪律和报告规范,而非搜索内容质量。 基础模型已具备出色的搜索和信息综合能力(答案正确性、来源覆盖、代码示例质量均优),但完全缺乏搜索过程的元数据记录(模式选择、预算控制、证据链追踪、降级声明、可信度标签、可复用查询)。Skill 填补的正是这一"搜索操作纪律"的空白。
二、测试方法 2.1 场景设计 场景 用户请求 预期模式 Assertions Eval 1: 事实查询 "Go database/sql 包 MaxOpenConns 和 MaxIdleConns 默认值" Quick 9 Eval 2: 错误调试 "gRPC context deadline exceeded — works locally, fails in production" Standard 9 Eval 3: 框架对比 "Compare Gin/Echo/Fiber performance for high-traffic REST API 2026" Deep 9
2.2 执行方式 With-skill 运行先读取 SKILL.md 及相关参考资料(query-patterns、programmer-search-patterns、source-evaluation 等) Without-skill 运行不读取任何 skill,按模型默认行为搜索 所有运行均可使用 WebSearch 和 WebFetch 工具 6 个 subagent 并行运行(with-skill 使用默认模型,without-skill 使用 fast 模型) 2.3 Skill 特征 google-search 是一个多文件 skill (1 个 SKILL.md + 6 个参考文件),条件加载设计。
文件 单词数 估算 Token 加载条件 SKILL.md 2,085 ~3,100 始终加载 references/query-patterns.md 1,191 ~1,800 始终加载(查询构建) references/programmer-search-patterns.md 1,031 ~1,500 程序员搜索类 references/source-evaluation.md 911 ~1,400 来源评估/冲突处理 references/ai-search-and-termination.md 549 ~800 终止/升级决策 references/high-conflict-topics.md 947 ~1,400 高冲突主题 references/chinese-search-ecosystem.md 279 ~400 中文/中国话题 SKILL.md 描述(always in context) ~60 ~80 始终
各场景实际加载量 :
场景 加载文件 估算 Token Eval 1 (Quick, programmer) SKILL.md + query-patterns + programmer-search ~6,400 Eval 2 (Standard, programmer) SKILL.md + query-patterns + programmer-search + source-evaluation ~7,800 Eval 3 (Deep, comparison) SKILL.md + query-patterns + programmer-search + source-evaluation ~7,800 平均 ~7,300
三、Assertion 通过率 3.1 总览 场景 Assertions With Skill Without Skill 差值 Eval 1: 事实查询(Quick) 9 9/9 (100%) 3/9 (33.3%) +66.7% Eval 2: 错误调试(Standard) 9 9/9 (100%) 2/9 (22.2%) +77.8% Eval 3: 框架对比(Deep) 9 9/9 (100%) 2/9 (22.2%) +77.8% 总计 27 27/27 (100%) 7/27 (25.9%) +74.1%
3.2 逐项评分明细 Eval 1: Go database/sql 默认池大小(Quick 模式) # Assertion With Skill Without Skill A1 输出含 execution mode 标签 ✅ "Quick" ❌ A2 输出含 degradation level ✅ "Full" ❌ A3 结论直接回答问题 ✅ ✅ A4 输出含可复用查询(≥2) ✅(5 条) ❌ A5 至少 1 条查询用 site:go.dev ✅ ❌ A6 结论引用官方来源 ✅ go.dev, pkg.go.dev ✅ go.dev, pkg.go.dev A7 输出含证据链状态 ✅ 显式表格 ❌ A8 结论含具体数值 ✅ MaxOpenConns=0, MaxIdleConns=2 ✅ A9 关键数字含 confidence + source-tier 标签 ✅ "High" + "Official" ❌
Eval 2: gRPC context deadline exceeded(Standard 模式) # Assertion With Skill Without Skill B1 输出含 execution mode 标签 ✅ "Standard" ❌ B2 输出含 degradation level ✅ "Full" ❌ B3 结论含多个原因 ✅(5 个结构化原因) ✅(6 个原因) B4 输出含可复用查询(≥3) ✅(5 条) ❌ B5 至少 1 条查询定向 SO 或 GitHub ✅ site:github.com/grpc/grpc-go ❌ B6 至少 1 条查询用引号精确匹配错误信息 ✅ "context deadline exceeded" ❌ B7 来源含交叉验证(≥2 独立源) ✅(6 个独立来源) ✅(6 个参考来源) B8 输出含证据链状态 ✅ 显式表格 ❌ B9 输出含 source assessment ✅ 可信度/时效/缺口/冲突/置信度论证 ❌
Eval 3: Go HTTP 框架对比(Deep 模式) # Assertion With Skill Without Skill C1 输出含 execution mode 标签(Deep) ✅ "Deep" ❌ C2 输出含 degradation level ✅ "Partial"(诚实降级) ❌ C3 结论含推荐建议 ✅ 决策树 + 框架定位 ✅ 决策矩阵 + 推荐 C4 输出含可复用查询(≥3) ✅(5 条含 gap-closing) ❌ C5 关键数字含 confidence + source-tier 标签 ✅(14 个数字全标注) ❌ C6 ≥3 个独立来源 ✅(5+ 来源含详细评估) ✅(16 来源) C7 来源含可信度评估 ✅ Source Comparison Table(含 tier/credibility/gaps/recency/bias) ❌ C8 输出含证据链状态 ✅ 显式链状态表 ❌ C9 对比覆盖 ≥3 框架含具体数据 ✅ Gin/Echo/Fiber + RPS + 延迟 + 星数 ✅
3.3 Without-Skill 失败的 20 条 Assertion 归类 失败类型 次数 说明 缺少 Output Contract 元数据字段 6 execution mode (3) + degradation level (3) 缺少可复用搜索查询 3 3/3 场景均无 reusable queries 区段 缺少证据链状态追踪 3 3/3 场景均无 evidence chain status 缺少 confidence + source-tier 标签 3 关键数字无双标签 缺少 source assessment 3 无可信度/bias/recency 评估 缺少搜索策略展示 2 无 site: 精确查询、无引号匹配
注意 :与 deep-research 评估类似,所有 20 条失败都是搜索纪律/报告格式 失败,不是内容质量失败。Without-skill 在答案正确性、来源覆盖、代码示例方面全部通过。
3.4 与 deep-research skill 的对比 指标 google-search deep-research With-skill 通过率 100% 100% Without-skill 通过率 25.9% 33.3% 差值 +74.1% +66.7% 失败类型 搜索纪律 + 报告格式 报告格式
google-search 的 assertion delta 更大,因为它要求的不仅是报告模板(deep-research 的 7-section),还包括搜索过程的元数据 (模式、预算、证据链、降级级别、可复用查询、精确查询策略)。基础模型连这些概念都不产出。
四、逐维度对比分析 4.1 Output Contract(8 字段) 字段 With Skill 3/3 Without Skill 产出 1. Execution mode ✅ Quick/Standard/Deep ❌ 无模式概念 2. Degradation level ✅ Full/Partial/Blocked ❌ 无降级概念 3. Conclusion summary ✅ ✅(等效) 4. Evidence chain status ✅ 显式表格 ❌ 无追踪 5. Key evidence ✅ 结构化表格含贡献说明 ⚠️ 有来源列表但无结构化评估 6. Source assessment ✅ 可信度/偏见/时效/缺口/冲突 ❌ 无评估 7. Key numbers + 双标签 ✅ confidence + source-tier ❌ 有数字但无标签 8. Reusable queries ✅ 3-5 条含精确/扩展/填补策略 ❌ 无
实际价值 : - Degradation level 在 Eval 3 中展现了最高价值——With-skill 诚实声明为 "Partial"(TechEmpower 数据来自第三方解读、无命名公司生产案例),而 Without-skill 直接给出结论不标注不确定性 - Evidence chain status 让读者能追踪 "哪些证据已满足、哪些缺失",避免把片面数据当完整结论 - Reusable queries 赋予读者"继续搜索"的能力——5 条精心设计的 Google 查询比一个答案更有持久价值
4.2 搜索策略纪律 维度 With Skill Without Skill 查询构建策略 Primary + Precision + Expansion 三变体 直接搜索,无显式策略 site: 域限定 ✅ site:go.dev, site:github.com/grpc/grpc-go 偶尔出现但非系统性 引号精确匹配 ✅ "context deadline exceeded" 未展示 查询预算控制 ✅ Quick 2 / Standard 5 / Deep 8 无预算概念 查询历史记录 ✅ Gate Execution Log ❌ 无记录 搜索后续策略 ✅ gap-closing 查询 ❌ 无
4.3 Confidence + Source-Tier 标签 Eval 3 的 With-skill 输出为 14 个关键数字全部标注了双标签:
| Fiber real-world RPS | ~36,000 | May 2024 | Medium | Primary (independent benchmark) |
| Fiber JSON RPS (TechEmpower R23) | ~735,000 | March 2025 | Low | Third-party interpretation of Official |
区分了 "Medium confidence from Primary source" 和 "Low confidence from Third-party interpretation",让读者知道 TechEmpower 数据经过第三方转述因此可信度降级。Without-skill 的 Eval 3 引用了 16 个来源和大量数字,但没有任何数字标注可信度或来源层级 。
4.4 诚实降级(Honest Degradation) Eval 3 的 With-skill 输出最能展现此机制:
Degradation Level: Partial — Strong benchmark data and ecosystem analysis available. However: TechEmpower Round 23 Go-specific per-framework numbers could not be directly verified from TechEmpower's own site... Large-scale production experience reports... were not found from named companies with disclosed architectures.
这段降级声明明确告知读者两个具体不确定性,避免读者把对比结论当作完全确认的事实。Without-skill 的 Eval 3 同样没找到命名公司案例,但没有声明这一局限 。
4.5 内容质量对比 维度 With Skill Without Skill 差异 答案正确性 3/3 正确 3/3 正确 无差异 来源数量 2 / 6 / 5 4 / 6 / 16 Without-skill 略多(Eval 3) 代码示例 优秀(Eval 2 含 6 个代码块) 优秀(Eval 2 含 5 个代码块) 无显著差异 调试步骤(Eval 2) 6 步结构化调试流程 5 步调试流程 相当 框架对比表格(Eval 3) Source Comparison Table + Decision Tree Decision Matrix + Star 评分 各有优势 生产建议 优秀 优秀 无显著差异
关键结论: 与 deep-research skill 的评估发现一致——基础模型在内容维度已经非常出色,Skill 的增量完全在搜索纪律和报告元数据 上。
五、Token 效费比分析 5.1 Skill 体积 文件 估算 Token 加载条件 SKILL.md ~3,100 始终 query-patterns.md ~1,800 始终 programmer-search-patterns.md ~1,500 程序员搜索 source-evaluation.md ~1,400 来源评估 ai-search-and-termination.md ~800 终止决策 high-conflict-topics.md ~1,400 高冲突 chinese-search-ecosystem.md ~400 中文话题 最大加载量 ~10,400 全部加载 典型加载量(程序员搜索) ~7,800 SKILL + query + programmer + source-eval 最小加载量(非程序员 Quick) ~4,900 SKILL + query
5.2 Token 换取的质量提升 指标 数值 With-skill 通过率 100% (27/27) Without-skill 通过率 25.9% (7/27) 通过率提升 +74.1 百分点 每修复 1 条 assertion 的 Token 成本(SKILL.md) ~155 tok 每修复 1 条 assertion 的 Token 成本(典型加载) ~390 tok 每 1% 通过率提升的 Token 成本(SKILL.md) ~42 tok 每 1% 通过率提升的 Token 成本(典型加载) ~105 tok
5.3 Token 分段效费比 模块 估算 Token 关联 Assertion 差值 效费比 Output Contract(SKILL.md) ~300 6 条(mode 3 + degradation 3) 极高 — 50 tok/assertion Confidence + Source-tier 规则 ~200 3 条 极高 — 67 tok/assertion Reusable Queries 要求 ~100 3 条 极高 — 33 tok/assertion Evidence Chain Gate(Gate 3) ~300 3 条 高 — 100 tok/assertion Source Assessment 要求 ~150 3 条 高 — 50 tok/assertion query-patterns.md ~1,800 2 条(site: + 引号策略) 中 — 900 tok/assertion programmer-search-patterns.md ~1,500 间接贡献(搜索质量) 中 — 无直接 assertion source-evaluation.md ~1,400 间接贡献(评估质量) 中 — 无直接 assertion Worked Examples(SKILL.md) ~500 0 条直接 低 Anti-Examples(SKILL.md) ~300 0 条直接 低 其他 Gates(1,2,4,5,6,7,8) ~450 间接贡献 中
5.4 高杠杆 vs 低杠杆指令 高杠杆(~1,050 tokens → 18 条 assertion 差值): - Output Contract 8 字段定义(~300 tok → 6 条) - Confidence + Source-tier 双标签规则(~200 tok → 3 条) - Reusable Queries 要求(~100 tok → 3 条) - Evidence Chain Gate(~300 tok → 3 条) - Source Assessment 要求(~150 tok → 3 条)
中杠杆(~5,150 tokens → 2 条直接 + 间接贡献): - query-patterns.md(~1,800 tok → 2 条 + 搜索质量间接) - programmer-search-patterns.md(~1,500 tok → 间接) - source-evaluation.md(~1,400 tok → 间接) - 其他 Gates(~450 tok → 间接)
低杠杆(~800 tokens → 0 条直接差值): - Worked Examples(~500 tok) - Anti-Examples(~300 tok)
5.5 与其他 Skill 的效费比对比 指标 google-search deep-research yt-dlp-downloader tdd-workflow go-makefile-writer SKILL.md Token ~3,100 ~1,350 ~2,370 ~2,100 ~1,960 典型加载 Token ~7,800 ~1,350 ~5,100 ~3,600 ~4,100 通过率提升 +74.1% +66.7% +55.0% +46.2% +31.0% 每 1% 的 Token(SKILL.md) ~42 tok ~20 tok ~43 tok ~45 tok ~63 tok 每 1% 的 Token(典型加载) ~105 tok ~20 tok ~93 tok ~78 tok ~132 tok
google-search 在绝对通过率提升 上最高(+74.1%),但 SKILL.md 层面的单位效费比(~42 tok/1%)与 yt-dlp-downloader(~43)和 tdd-workflow(~45)相当。典型加载效费比(~105 tok/1%)因参考文件较多而偏高。
六、与基础模型能力的边界分析 6.1 基础模型已具备的能力(Skill 无增量) 能力 证据 WebSearch 信息检索 3/3 场景均主动搜索并找到正确答案 官方来源优先 Eval 1 自行定位 go.dev 和 pkg.go.dev 错误信息搜索 Eval 2 自行搜索 gRPC error 并找到 GitHub issues 多来源综合 Eval 3 引用 16 个来源进行框架对比 代码示例生成 Eval 2 生成完整的调试代码片段 结构化对比表格 Eval 3 生成决策矩阵和星级评分
6.2 基础模型的能力缺口(Skill 填补) 缺口 证据 风险等级 无搜索模式/预算控制 3/3 场景无 Quick/Standard/Deep 概念 中 — 可能在简单问题上过度搜索或在复杂问题上不足 无降级声明 3/3 场景直接给结论不标注不确定性 高 — 读者把 Partial 当 Full 无证据链追踪 3/3 场景不追踪"需要什么证据、找到了什么" 高 — 无法评估结论可靠性 无 confidence + source-tier 双标签 3/3 场景数字无标签 高 — 第三方转述和官方一手数据等权展示 无可复用查询 3/3 场景不输出搜索查询 中 — 用户无法继续搜索 无来源可信度评估 3/3 场景不评估来源偏见/时效/缺口 中 — 竞品博客和官方文档等权引用 无搜索策略展示 搜索过程不透明 低 — 对最终答案无直接影响
核心发现 :基础模型的"搜索结果→答案"能力很强,但"搜索过程可审计性"和"结论可信度标注"为零。google-search skill 的价值集中在后两者。
七、综合评分 7.1 分维度评分 维度 With Skill Without Skill 差值 Output Contract 合规 5.0/5 0.5/5 +4.5 搜索纪律(模式/预算/策略) 5.0/5 1.0/5 +4.0 Confidence + Source-tier 5.0/5 0.5/5 +4.5 诚实降级 5.0/5 1.0/5 +4.0 可复用查询 5.0/5 0.0/5 +5.0 内容质量(答案正确性/深度) 5.0/5 4.5/5 +0.5 来源数量/多样性 5.0/5 4.5/5 +0.5 综合均值 5.0/5 1.71/5 +3.29
7.2 加权总分 维度 权重 得分 加权 Assertion 通过率(delta) 25% 10/10 2.50 Output Contract 合规 15% 10/10 1.50 搜索纪律 + 诚实降级 15% 10/10 1.50 Confidence + Source-tier 10% 10/10 1.00 可复用查询 10% 10/10 1.00 Token 效费比 10% 7.0/10 0.70 内容质量增量 10% 2.0/10 0.20 来源数量/质量增量 5% 2.0/10 0.10 加权总分 8.50/10
Token 效费比评分偏低(7.0/10)反映了参考文件较多导致典型加载量(~7,800 tok)较高的现实,尽管 SKILL.md 本身的效费比(~42 tok/1%)与同级 skill 相当。
八、评估材料 材料 路径 Eval 1 with-skill 输出 /tmp/gsearch-eval/eval-1/with_skill/response.md Eval 1 without-skill 输出 /tmp/gsearch-eval/eval-1/without_skill/response.md Eval 2 with-skill 输出 /tmp/gsearch-eval/eval-2/with_skill/response.md Eval 2 without-skill 输出 /tmp/gsearch-eval/eval-2/without_skill/response.md Eval 3 with-skill 输出 /tmp/gsearch-eval/eval-3/with_skill/response.md Eval 3 without-skill 输出 /tmp/gsearch-eval/eval-3/without_skill/response.md