readme-generator Skill 评审报告¶
评估框架: skill-creator 评估日期: 2026-03-19 评估对象:
readme-generator
readme-generator 是一个面向仓库结构的 README 生成与重构 skill,用于为 service、library、CLI、monorepo 等项目产出可维护、基于证据的项目首页文档。它的三个主要亮点是:先做项目类型路由和模板选择,让 README 结构贴合真实仓库形态,而不是落入通用化套板;通过 Evidence Mapping、badge 检测和 no-fabrication 规则,把各 section 锚定到真实文件、命令和配置,减少凭空补全;以及提供结构化 Output Contract 和维护说明,让生成结果更易评审、更易长期维护,也更容易随着代码演进持续同步。
一、评估概览¶
本次评估从实际任务表现和 Token 效费比两个维度对 readme-generator skill 进行全面评审。设计 3 个递进复杂度的 README 生成/重构场景(Go 服务从零生成、Go CLI 工具生成、问题 README 重构),每个场景分别运行 with-skill 和 without-skill 配置,共 3 场景 × 2 配置 = 6 次独立 subagent 运行,对照 42 条 assertion 进行评分。
| 维度 | With Skill | Without Skill | 差异 |
|---|---|---|---|
| Assertion 通过率 | 42/42 (100%) | 26/42 (61.9%) | +38.1 百分点 |
| Output Contract 结构化报告 | 3/3 全对 | 0/3 | Skill 独有 |
| Documentation Maintenance 维护说明 | 3/3 | 0/3 | Skill 独有 |
| Evidence Mapping 证据表 | 3/3 | 0/3 | Skill 独有 |
| 社区文件链接(Contributing/Security) | 2/2 | 2/2 | 持平 |
| CLI 端到端示例 | 1/1(无伪造输出体) | 0/1 | Skill 独有 |
| 无内部流程标签 | 3/3 | 2/3 | Skill 优势 |
| 无伪造内容 | 3/3 | 2/3 | Skill 优势 |
| Skill Token 开销(SKILL.md 单文件) | ~4,688 tokens | 0 | — |
| Skill Token 开销(典型全量加载) | ~10,030 tokens | 0 | — |
| 每 1% 通过率提升的 Token 成本 | ~123 tokens(SKILL.md only)/ ~263 tokens(full) | — | — |
二、测试方法¶
2.1 场景设计¶
| 场景 | 仓库 | 核心考察点 | Assertions |
|---|---|---|---|
| Eval 1: go-service-from-scratch | Go 服务:cmd/api、internal/、Makefile、.env.example、CI | 项目类型路由、证据驱动 section、badge 策略、Output Contract | 14 |
| Eval 2: go-cli-tool | Go CLI 工具:cobra 双子命令、Makefile、CI、CONTRIBUTING.md | CLI 类型路由、端到端示例、ToC 质量、no-fabrication | 13 |
| Eval 3: refactor-stale-readme | Go 服务含问题 README:伪造 badge、错误配置、过时命令、内部标签 | 反模式检测修复、社区文件链接、Output Contract | 15 |
2.2 测试仓库结构¶
Eval 1 仓库 (/tmp/readme-eval/eval-repos/go-service): - cmd/api/main.go — entrypoint(handler → service → repository 分层) - internal/handler/user.go — 3 个 HTTP 端点(GET/POST /users,GET /users/:id) - .env.example — 5 个环境变量(DATABASE_URL、REDIS_URL、JWT_SECRET、LOG_LEVEL、PORT) - .github/workflows/ci.yml — GitHub Actions(运行 make ci,Go 1.23) - Makefile — 9 个 target,COVER_MIN=80,golangci-lint@v1.62.2 - LICENSE — MIT;Go 1.23,模块 github.com/acme/user-service
Eval 2 仓库 (/tmp/readme-eval/eval-repos/go-cli): - cmd/root/root.go — cobra root + 2 个全局 flag(--output/-o、--format/-f) - cmd/generate/generate.go、cmd/validate/validate.go — 2 个子命令 - Makefile — 4 个 target(build-schema-gen、test、lint、install) - .github/workflows/ci.yml、LICENSE(Apache 2.0)、CONTRIBUTING.md - Go 1.22,无 .env.example;无 sample output 文件
Eval 3 仓库 (/tmp/readme-eval/eval-repos/refactor-stale) — 预置问题 README: - 伪造 badge:Travis CI、Codecov、npm Downloads(repo 使用 GitHub Actions) - 错误配置列:DB_HOST/DB_PORT 等(.env.example 实为 POSTGRES_DSN/REDIS_ADDR 等 7 个变量) - 过时命令:go run main.go(Makefile 有 make run-server) - 内部标签:Testing 表格含 ✅ Verified / ⚠️ Not verified - 实际内容:.env.example(7 变量)、Makefile(9 target)、CONTRIBUTING.md、SECURITY.md、Go 1.24
2.3 执行方式¶
- 每个场景创建独立 Git 仓库并预置代码、go.mod、Makefile 等文件
- With-skill 运行先读取 SKILL.md,按技能工作流生成/重构 README
- Without-skill 运行不读取任何 skill,按模型默认行为完成同一任务
- 所有 6 次运行并行执行
三、Assertion 通过率¶
3.1 总览¶
| 场景 | Assertions | With Skill | Without Skill | 差值 |
|---|---|---|---|---|
| Eval 1: go-service | 14 | 14/14 (100%) | 9/14 (64.3%) | +35.7% |
| Eval 2: go-cli | 13 | 13/13 (100%) | 8/13 (61.5%) | +38.5% |
| Eval 3: refactor-stale | 15 | 15/15 (100%) | 9/15 (60.0%) | +40.0% |
| 总计 | 42 | 42/42 (100%) | 26/42 (61.9%) | +38.1% |
3.2 Without-Skill 失败的 16 条 Assertion 归类¶
| 失败类型 | 次数 | 涉及 Eval | 说明 |
|---|---|---|---|
| 无 Output Contract / Scorecard | 3 | Eval 1/2/3 | 无结构化的 project_type、template_used、scorecard、badges_added 报告 |
| 无 Documentation Maintenance | 3 | Eval 1/2/3 | 无"此 README 应在以下变更时更新"维护矩阵 |
| 无 Evidence Mapping | 3 | Eval 1/2/3 | 无 section → 证据文件的映射表 |
| 无端到端示例 | 1 | Eval 2 | CLI 工具只展示命令片段,无"输入命令 → 输出描述"的完整示例 |
| 无 Project Structure section | 1 | Eval 2 | 结构信息散落在其他 section 中 |
| 无 ToC | 1 | Eval 2 | 多 section 的 CLI README 缺少导航 |
| Go version badge 缺失 | 1 | Eval 1 | 只有 CI badge,无 Go 版本 badge(go.mod 有证据) |
| Quick Start 步骤 > 3 | 1 | Eval 1 | 含 git clone,共 4 步(≤3 为合格) |
| 引入新伪造内容 | 1 | Eval 3 | 无 Dockerfile 证据却出现 docker pull acme/notification-svc:latest |
| 无 License section/badge | 1 | Eval 3 | MIT LICENSE 文件存在但未引用 |
3.3 趋势:Skill 优势随场景复杂度递增¶
| 场景复杂度 | Without-Skill 失败条数 | With-Skill 优势 |
|---|---|---|
| Eval 1(服务,从零创建) | 5 条 | +35.7% |
| Eval 2(CLI,从零创建) | 5 条 | +38.5% |
| Eval 3(重构,含反模式) | 6 条 | +40.0% |
Eval 3 优势最大,因为重构场景要求在修复已知问题的同时主动发现并补充新 section(社区文件、维护说明),这类"扫描-补全"行为是 skill 工作流的固有步骤,without-skill 倾向于只修复明显问题而停止。
四、逐维度对比分析¶
4.1 Output Contract 与结构化报告¶
这是 Skill 独有的差异化产出,3/3 场景全部产出,without-skill 0/3。
| 报告项 | Eval 1 | Eval 2 | Eval 3 |
|---|---|---|---|
| project_type | service | cli | service |
| template_used | Template A: Service | Template C: CLI | Template A: Service(Refactor) |
| scorecard | Critical 4/4 | Standard 6/6 | Hygiene 4/4 → PASS |
| badges_added | CI + Go 1.23 + License | CI + Go 1.22 + License | CI + Go 1.24 + License |
| sections_omitted | Contributing, Security, Release | Config, Exit Codes, Arch, Deploy | — |
| evidence_mapping | 14 行映射 | 15 行映射 | 12 行映射 |
实际价值: - PR review 时可核查每个 section 对应哪个文件 - sections_omitted 明确跳过原因,避免"为什么没有 X section"的疑问 - scorecard 分层(Critical/Standard/Hygiene)让 reviewer 快速定位质量问题
4.2 Documentation Maintenance 维护说明¶
Skill 的 Hygiene Tier H1 要求,3/3 场景全通过,without-skill 0/3。
With-skill Eval 1 输出示例:
| Repository change | Sections to update |
|---|---|
New cmd/*/main.go entrypoint | Project Structure, Common Commands, Quick Start |
| Environment variable added/changed | Configuration and Environment |
| Makefile target added/renamed | Common Commands |
| CI workflow changed | Badges, Testing and Quality |
| New API endpoints added | API Endpoints |
Go version bumped in go.mod | Badges, Quick Start prerequisites |
实际价值:解决"README 与代码逐渐脱节"的维护痛点,让贡献者知道改了什么代码就该更新哪部分 README。
4.3 CLI 端到端示例与 No-Fabrication¶
Skill 的 End-to-End Example Rule 要求 CLI 工具提供"输入命令 → 输出描述"的完整示例,并明确禁止在无证据时伪造 JSON/YAML 输出体。
With-Skill(Eval 2):
schema-gen generate --format json --output ./schemas ./internal/models
# → writes schema file(s) to ./schemas/
schema-gen validate ./schemas/models.json
# → prints validation result to stdout
Without-Skill(Eval 2):只有命令示例,无 input→output 描述;通过 Usage section 的 Examples 展示命令变体,但读者无法预期输出是什么。
4.4 伪造内容防御¶
这是本次评估中 without-skill 最值得关注的失败:
Without-skill Eval 3 在修复旧伪造内容(Travis CI badge、DB_HOST 配置)时,主动引入了新的伪造内容:
仓库中无任何 Docker 相关文件(无 Dockerfile、无 docker-compose.yml、无 Docker Hub 链接)。这表明基础模型在修复一类问题时仍会从通用知识("Go 服务通常有 Docker image")填充无证据内容。With-skill 的 Evidence Completeness Gate 明确要求"base every statement on repository evidence",3/3 场景均未出现新增伪造。
| 场景 | With Skill | Without Skill |
|---|---|---|
| 删除旧伪造 badge(Eval 3) | ✅ | ✅ |
| 修正旧错误配置(Eval 3) | ✅ | ✅ |
| 不引入新伪造内容(Eval 3) | ✅ | ❌(docker pull) |
| CLI 示例无伪造输出体(Eval 2) | ✅ | N/A(无端到端示例) |
| Go version badge 基于证据(Eval 1) | ✅ | ❌(未添加) |
4.5 Badge 策略¶
| 维度 | With Skill | Without Skill |
|---|---|---|
| CI badge(来自 .github/workflows) | 3/3 | 3/3 |
| Go version badge(来自 go.mod) | 3/3 | 0/3 |
| License badge(来自 LICENSE) | 3/3 | 0/3 |
| 正确删除伪造 badge(Eval 3) | 3/3 | 3/3 |
| 无占位/虚假 badge URL | 3/3 | 3/3 |
Skill 的 Badge Detection Gate 要求按 CI → Coverage → Language version → License 顺序扫描,最终 3 badge 组合(CI + Go + License)在三个场景中均稳定产出。Without-skill 只主动添加 CI badge,Go version 和 License 两类需要明确规则指引才能一致产出。
4.6 ToC 导航质量(CLI 场景)¶
| 指标 | With Skill | Without Skill |
|---|---|---|
| ToC 存在 | ✅(10 条) | ❌ |
| ToC 条目数量合理(7-10) | ✅ | N/A |
| ToC 标签与 heading 精确匹配 | ✅ | N/A |
With-skill Eval 2 的 ToC:
- [Prerequisites](#prerequisites)
- [Installation](#installation)
- [Quick Start](#quick-start)
- [Commands & Flags](#commands--flags)
- [End-to-End Example](#end-to-end-example)
- [Project Structure](#project-structure)
- [Development Commands](#development-commands)
- [Contributing](#contributing)
- [License](#license)
- [Documentation Maintenance](#documentation-maintenance)
## heading 完全匹配,符合 Skill 的 ToC size calibration 规则。 4.7 与 Claude 基础模型能力的边界¶
基础模型已具备的能力(Skill 无增量)¶
| 能力 | 证据 |
|---|---|
| 正确的项目类型路由(service/cli) | 3/3 场景正确 |
| 删除伪造 badge(Travis CI、Codecov、npm) | 1/1 场景正确(Eval 3) |
| 修正错误配置列 | 1/1 场景正确(Eval 3) |
| 修复过时命令(go run → make run-server) | 1/1 场景正确(Eval 3) |
| 删除 Verified/Not verified 内部标签 | 1/1 场景正确(Eval 3) |
| 引用已发现的社区文件 | Eval 3 without-skill 正确引用 CONTRIBUTING.md + SECURITY.md |
| Makefile target 文档化 | 3/3 场景正确 |
| 基本的证据驱动内容 | 整体尚可,但缺乏系统性 |
基础模型的能力缺口(Skill 填补)¶
| 缺口 | 证据 | 风险等级 |
|---|---|---|
| 无 Output Contract | 0/3 场景产出结构化报告 | 高 — 无法程序化审计 README 变更 |
| 无 Documentation Maintenance | 0/3 场景添加维护矩阵 | 中 — README 随代码演进逐渐脱节 |
| 无 Evidence Mapping | 0/3 场景提供 section → 文件映射 | 低 — 影响可审计性 |
| CLI 端到端示例缺失 | 0/1 场景提供"输入→输出"完整示例 | 中 — 用户无法预期 CLI 输出形式 |
| 引入新伪造内容(重构场景) | Eval 3 docker pull | 高 — 从通用知识填充无证据内容 |
| Go/License badge 不主动添加 | 0/3 场景产出完整三件套 badge | 低 — 信息不完整 |
| ToC 不主动添加 | 0/1 场景为长 README 添加 ToC | 低 — 可读性降低 |
| Project Structure section 缺失 | 0/1 场景在 CLI README 中提供 | 低 — 结构分散 |
五、Token 效费比分析¶
5.1 Skill 体积¶
readme-generator 是一个多文件 skill,SKILL.md 包含核心规则,参考资料按需加载。
| 文件 | 行数 | 字节 | 估算 Token | 加载时机 |
|---|---|---|---|---|
| SKILL.md | 403 | 18,755 | ~4,688 | 始终 |
| references/templates.md | 372 | 7,512 | ~1,878 | 从零生成时 |
| references/golden-service.md | 144 | 4,357 | ~1,089 | 服务类项目 |
| references/golden-cli.md | 102 | 2,638 | ~660 | CLI 类项目 |
| references/golden-library.md | 103 | 3,007 | ~752 | 库类项目 |
| references/golden-monorepo.md | 93 | 2,951 | ~738 | monorepo(按需) |
| references/golden-lightweight.md | 61 | 1,685 | ~421 | 小型项目 |
| references/anti-examples.md | 182 | 3,306 | ~826 | 重构时 |
| references/checklist.md | 171 | 10,389 | ~2,597 | 重构时 |
| references/command-priority.md | 279 | 8,496 | ~2,124 | 命令冲突时 |
| scripts/discover_readme_needs.sh | 239 | 9,499 | ~2,375 | 始终(步骤1) |
| references/bilingual-guidelines.md | 28 | 1,086 | ~271 | 中文/双语(按需) |
| references/monorepo-rules.md | 49 | 1,687 | ~421 | monorepo(按需) |
| Description(始终在 context) | — | — | ~60 | 始终 |
典型加载场景(按 Load References Selectively 原则):
| 场景 | 读取文件 | 估算总 Token |
|---|---|---|
| 英文服务(Eval 1) | SKILL.md + templates + golden-service + discover.sh | ~10,030 |
| CLI 工具(Eval 2) | SKILL.md + templates + golden-cli + discover.sh | ~9,601 |
| 重构模式(Eval 3) | SKILL.md + anti-examples + checklist + discover.sh | ~10,186 |
| 仅 SKILL.md(最小加载) | SKILL.md | ~4,688 |
5.2 Token 换取的质量提升¶
| 指标 | 数值 |
|---|---|
| With-skill 通过率 | 100% (42/42) |
| Without-skill 通过率 | 61.9% (26/42) |
| 通过率提升 | +38.1 百分点 |
| 修复的 assertion 数量 | 16 条 |
| 每修复 1 条 assertion(SKILL.md only) | ~293 tokens |
| 每修复 1 条 assertion(full load) | ~627 tokens |
| 每 1% 通过率提升(SKILL.md only) | ~123 tokens |
| 每 1% 通过率提升(full load) | ~263 tokens |
5.3 Token 分段效费比¶
将 SKILL.md 内容按功能模块拆分:
| 模块 | 估算 Token | 关联 Assertion 差值 | 效费比 |
|---|---|---|---|
| Output Contract + Scorecard 定义 | ~600 | 3 条(3 evals 无结构化报告) | 高 — 200 tok/assertion |
| Documentation Maintenance 规则 | ~200 | 3 条(3 evals 无维护说明) | 极高 — 67 tok/assertion |
| End-to-End Example Rule + No-fabrication | ~220 | 1 条(Eval 2 端到端示例) + 防御新伪造 | 高 — 220 tok/assertion |
| Badge Detection Gate(4 步检测) | ~250 | 2 条(Go + License badge) | 高 — 125 tok/assertion |
| Command Verifiability Gate + Hard rule | ~250 | 1 条(无执行状态标签) | 高 — 250 tok/assertion |
| README Navigation Rule(ToC) | ~200 | 1 条(Eval 2 ToC) | 中 — 200 tok/assertion |
| Community & Governance Files 规则 | ~150 | 间接贡献(与 without-skill 持平,社区文件两者均引用) | 低(本次评估) |
| Pre-Generation Gates(类型路由) | ~400 | 间接贡献(类型路由均正确,基础模型亦可) | 低(本次评估) |
| Anti-Example 1(内部标签) | ~200 | 防御性(without-skill 已能删除旧标签,但防止新标签泄漏) | 中 |
| Evidence Mapping 规则 | ~150 | 3 条(3 evals 无证据映射) | 极高 — 50 tok/assertion |
| Structure Policy(模板路由) | ~350 | 间接贡献(Project Structure section) | 中 |
5.4 高杠杆 vs 低杠杆指令¶
高杠杆(~1,620 tokens → 直接贡献 11+ 条 assertion 差值): - Documentation Maintenance(200 tok → 3 条) - Evidence Mapping(150 tok → 3 条) - Output Contract + Scorecard(600 tok → 3 条) - End-to-End Example + No-fabrication(220 tok → 1 条 + 防御) - Badge Detection(250 tok → 2 条) - Command Verifiability Gate(250 tok → 1 条 + 防御)
中杠杆(~750 tokens → 间接贡献): - README Navigation Rule / ToC(200 tok → 1 条) - Anti-Example 1(200 tok → 防御性保障) - Structure Policy(350 tok → section 完整性)
低杠杆(~550 tokens → 0 条直接差值,本次未测试场景): - Chinese/Bilingual Guidelines(加载 bilingual-guidelines.md,~271 tok)— 按需,未触发 - Monorepo Rules(加载 monorepo-rules.md,~421 tok)— 按需,未触发
参考资料(~2,500-5,200 tokens 按场景): - golden-*.md 提供 README 结构模板(间接贡献 section 顺序和完整度) - templates.md 提供完整骨架(间接贡献项目类型路由一致性) - discover_readme_needs.sh 确定性扫描(间接贡献证据完整性)
5.5 Token 效率评级¶
| 评级维度 | 结论 |
|---|---|
| 整体 ROI | 良好 — ~10,000 tokens 换取 +38.1% 通过率 |
| SKILL.md 本身 ROI | 中等 — ~4,688 tokens 较重,高杠杆规则约占 34%(~1,620 tokens) |
| 条件加载设计 | 优秀 — bilingual/monorepo/refactor 专用文件按需加载,典型场景不付出冗余成本 |
| 防御性 Token | 有价值 — No-fabrication、Evidence Gate 防止了 without-skill 出现的 docker pull 类伪造,难以用 assertion 数量直接量化 |
5.6 与 go-makefile-writer Skill 的效费比对比¶
| 指标 | readme-generator | go-makefile-writer |
|---|---|---|
| SKILL.md Token | ~4,688 | ~1,960 |
| 典型全量 Token | ~10,000 | ~4,600 |
| 通过率提升 | +38.1% | +31.0% |
| 每 1% Token(SKILL.md) | ~123 tok | ~63 tok |
| 每 1% Token(full) | ~263 tok | ~149 tok |
readme-generator 的 SKILL.md 约为 go-makefile-writer 的 2.4x,每 1% 通过率的 Token 成本约为 2.0x。考虑到 readme-generator 需要覆盖 5 种项目类型路由、多语言支持、重构与生成双模式,以及比 Makefile 生成更复杂的"证据驱动"约束体系,这个差距是任务复杂度差异的合理映射,并非效率低下。
六、综合评分¶
6.1 分维度评分¶
| 维度 | With Skill | Without Skill | 差值 |
|---|---|---|---|
| 证据驱动内容(无伪造) | 5.0/5 | 3.5/5 | +1.5 |
| 项目类型路由正确性 | 5.0/5 | 5.0/5 | 0 |
| 结构化报告(Output Contract) | 5.0/5 | 0/5 | +5.0 |
| 维护可持续性(Maintenance Note) | 5.0/5 | 0/5 | +5.0 |
| Badge 质量与完整性 | 5.0/5 | 3.0/5 | +2.0 |
| 导航与 ToC 质量 | 5.0/5 | 2.0/5 | +3.0 |
| CLI 端到端示例 | 5.0/5 | 1.5/5 | +3.5 |
| 无内部流程标签 | 5.0/5 | 4.5/5 | +0.5 |
| 综合均值 | 5.0/5 | 2.44/5 | +2.56 |
6.2 加权总分¶
| 维度 | 权重 | With Skill 得分 | Without Skill 得分 | 加权(With Skill) |
|---|---|---|---|---|
| Assertion 通过率(delta) | 25% | 10/10 | 6.2/10 | 2.50 |
| 结构化报告 & 证据映射 | 20% | 10/10 | 0/10 | 2.00 |
| 维护可持续性 | 15% | 10/10 | 0/10 | 1.50 |
| 伪造内容防御 | 15% | 10/10 | 5.0/10 | 1.50 |
| Token 效费比 | 15% | 6.0/10 | — | 0.90 |
| 内容质量 & 可读性 | 10% | 9.5/10 | 8.0/10 | 0.95 |
| 加权总分 | 9.35/10 |
七、改进建议¶
7.1 [P1] Project Structure 最小覆盖约束¶
问题:Eval 3 的 with-skill README 中 Project Structure 仅一行:
缺少 internal/api/、internal/db/、pkg/cache/ 等目录,这些在 cmd/server/main.go 的 import 语句中有明确证据。
建议:在 Generation Workflow Step 1 (Discover) 中增加:扫描 entrypoint 的 import 路径以补充 internal/、pkg/ 层目录,并设置"Project Structure 至少列出 3 个有意义目录"的下限。
7.2 [P2] License Section vs Badge 优先级规则明确化¶
问题:SKILL.md 在 Community and Governance Files 中规定"LICENSE → Add License section or badge",but 两者优先级不明确,导致不同场景产出不一致(有时只有 badge,有时只有 section)。
建议:明确优先级规则: - README > 80 行:添加 License badge 即可,不强制独立 section - README ≤ 80 行或面向公开仓库:badge + 独立 License section 同时保留
7.3 [P3] 增加更多评估场景¶
| 未测试功能 | 建议场景 |
|---|---|
| 中文/双语 README | 中文 Go 项目,含中文注释,验证 bilingual-guidelines.md 规则 |
| Monorepo | apps/ + packages/ 布局,多 go.mod,验证 monorepo-rules.md |
| Library/SDK | 纯 pkg/,无 cmd/,验证 Template B 路由 |
| Degraded 模式 | 无 Makefile、无 go.mod 的裸仓库 |
| Private 仓库 | badge fallback 策略验证 |
八、评估材料¶
| 材料 | 路径 |
|---|---|
| Eval 1 测试仓库 | /tmp/readme-eval/eval-repos/go-service |
| Eval 2 测试仓库 | /tmp/readme-eval/eval-repos/go-cli |
| Eval 3 测试仓库 | /tmp/readme-eval/eval-repos/refactor-stale |
| Eval 1 with-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-1-go-service/with_skill/outputs/ |
| Eval 1 without-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-1-go-service/without_skill/outputs/ |
| Eval 2 with-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-2-go-cli/with_skill/outputs/ |
| Eval 2 without-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-2-go-cli/without_skill/outputs/ |
| Eval 3 with-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-3-refactor-stale/with_skill/outputs/ |
| Eval 3 without-skill 输出 | /tmp/readme-eval/workspace/iteration-2/eval-3-refactor-stale/without_skill/outputs/ |
| Skill 路径 | /Users/john/.codex/skills/readme-generator/SKILL.md |