评测与基准
本页描述当前仓库已具备的验证方式,以及后续可扩展的评测框架。
建议先阅读《评测架构蓝图 v1》,该文档定义了统一数据模型、Trace Schema 与分阶段落地路线。
当前状态
当前代码库已具备基础测试能力,主要用于回归验证:
uv run pytest
目前仓库内尚未落地独立的 ai_service.eval 模块与完整黄金集流程。
建议的分层验证
1. 快速回归
- 目标:验证核心逻辑未被破坏
- 命令:
uv run pytest
2. 文档回归
- 目标:验证导航、Markdown 与 mkdocstrings 可构建
- 命令:
uv run mkdocs build
3. RAG 专项评测(规划中)
当前状态
- 当前仓库未提供开箱即用的 RAG 专项评测脚本。
- 当前仅具备通用回归与文档构建验证能力。
计划补齐能力
- 检索召回率评测
- 引用准确率评测
- 端到端回答质量评测
建议数据目录
data/
└── eval/
├── golden_qa.jsonl
├── rag_retrieval.jsonl
└── safety_cases.jsonl
最小执行示例(落地后)
uv run python -m ai_service.eval.run --dataset data/eval/golden_qa.jsonl
说明:该命令为规划示例,待 ai_service/eval 模块落地后启用。
版本演进建议
当你准备引入正式评测体系时,建议按以下顺序落地:
- 先定义数据集格式与打分标准
- 再增加离线评测脚本
- 最后接入 CI 作为发布门禁
最后更新
- 2026-02-11