跳转至

评测与基准

本页描述当前仓库已具备的验证方式,以及后续可扩展的评测框架。

建议先阅读《评测架构蓝图 v1》,该文档定义了统一数据模型、Trace Schema 与分阶段落地路线。

当前状态

当前代码库已具备基础测试能力,主要用于回归验证:

uv run pytest

目前仓库内尚未落地独立的 ai_service.eval 模块与完整黄金集流程。

建议的分层验证

1. 快速回归

  • 目标:验证核心逻辑未被破坏
  • 命令:uv run pytest

2. 文档回归

  • 目标:验证导航、Markdown 与 mkdocstrings 可构建
  • 命令:uv run mkdocs build

3. RAG 专项评测(规划中)

当前状态

  • 当前仓库未提供开箱即用的 RAG 专项评测脚本。
  • 当前仅具备通用回归与文档构建验证能力。

计划补齐能力

  • 检索召回率评测
  • 引用准确率评测
  • 端到端回答质量评测

建议数据目录

data/
└── eval/
    ├── golden_qa.jsonl
    ├── rag_retrieval.jsonl
    └── safety_cases.jsonl

最小执行示例(落地后)

uv run python -m ai_service.eval.run --dataset data/eval/golden_qa.jsonl

说明:该命令为规划示例,待 ai_service/eval 模块落地后启用。

版本演进建议

当你准备引入正式评测体系时,建议按以下顺序落地:

  1. 先定义数据集格式与打分标准
  2. 再增加离线评测脚本
  3. 最后接入 CI 作为发布门禁

最后更新

  • 2026-02-11