跳转至

AI Agent

评测与基准

评测与基准

本页描述当前仓库已具备的验证方式，以及后续可扩展的评测框架。

建议先阅读《评测架构蓝图 v1》，该文档定义了统一数据模型、Trace Schema 与分阶段落地路线。

当前状态

当前代码库已具备基础测试能力，主要用于回归验证：

uv run pytest

目前仓库内尚未落地独立的 ai_service.eval 模块与完整黄金集流程。

建议的分层验证

1. 快速回归

目标：验证核心逻辑未被破坏
命令：uv run pytest

2. 文档回归

目标：验证导航、Markdown 与 mkdocstrings 可构建
命令：uv run mkdocs build

3. RAG 专项评测（规划中）

当前状态

当前仓库未提供开箱即用的 RAG 专项评测脚本。
当前仅具备通用回归与文档构建验证能力。

计划补齐能力

检索召回率评测
引用准确率评测
端到端回答质量评测

建议数据目录

data/
└── eval/
    ├── golden_qa.jsonl
    ├── rag_retrieval.jsonl
    └── safety_cases.jsonl

最小执行示例（落地后）

uv run python -m ai_service.eval.run --dataset data/eval/golden_qa.jsonl

说明：该命令为规划示例，待 ai_service/eval 模块落地后启用。

版本演进建议

当你准备引入正式评测体系时，建议按以下顺序落地：

先定义数据集格式与打分标准
再增加离线评测脚本
最后接入 CI 作为发布门禁

最后更新

2026-02-11