2026 Q1 执行计划

本文档将平台愿景拆解为可落地的季度执行路线，覆盖 2026 年 2 月 11 日到 2026 年 5 月 20 日。

1. 目标与范围

1.1 季度目标

完成货代行业智能 Agent 平台的可试点版本。
打通业务记忆闭环：写入、检索、回溯、治理。
打通自动任务闭环：定义、调度、执行、审计。
打通单证智能闭环：OCR、抽取、校验、建议。
建立可发布治理闭环：评测、审批、灰度、回滚。

1.2 范围边界

本计划优先平台核心能力，不覆盖所有行业插件。
本计划以 v1 可用为目标，不追求一次性最佳性能。
AI 生成代码仅允许在评测与审批通过后进入灰度。

2. 阶段计划

在执行本计划时，建议按阶段结合下列方案文档阅读与落地，避免时间线与设计文档脱节。

标注说明：（已实现） 表示当前版本可对接能力，（规划中） 表示路线图内容，（草案） 表示设计草案待冻结。

2.1 方案文档总览

主题	方案文档
Runtime 总体设计	Agent Runtime v1 / 自动任务与调度模型（草案） · Agent Runtime v1 / 记忆能力 API 草案（草案）
系统架构	系统架构（已实现）
接口契约与 API	接口契约 / AI Service 对接契约（已实现） · 端点概览 / 核心会话端点（已实现）
数据模型	数据模式与关系（已实现） · 迁移与版本管理（已实现）
知识与检索	RAG 知识库管理 / 核心操作（已实现） · RAG Retrieval Service / `retrieve_context`（已实现）
单证解析能力	Parser 子系统 / 内置解析器（已实现）
工具能力与治理	MCP 能力与接口 / 功能清单（已实现）
评测与门禁	评测与基准 / 建议的分层验证（已实现） · Agent Runtime v1 / 评测与发布门禁（草案）
前端自定义	用户自定义前端可视化 / AI 代码生成系统（规划中）
试点与扩展	MVP Phase 1（已实现） · 详细设计 / MVP 路线（规划中） · API 路线图 / MVP 扩展（规划中）

阶段 A - 平台底座定版

时间：2026-02-11 至 2026-02-28
目标：冻结协议、模型和评测基线，确保后续开发不反复。

关键任务：

冻结 AgentRequest、AgentResponse、插件元数据规范（方案直达：接口契约 / AI Service 对接契约（已实现） · Agent Runtime v1 / 编排输入输出 API 草案（草案））。
冻结记忆数据模型：memory_fact、memory_event_link、memory_feedback（方案直达：Agent Runtime v1 / 用户业务记忆模型（草案） · 数据模式与关系（已实现））。
补齐 memory/task/plugin API 草案到开发级别（方案直达：Agent Runtime v1 / 记忆能力 API 草案（草案） · 端点概览（已实现））。
建立 Agent、RAG、Tool、Memory 四层评测最小闭环（方案直达：评测与基准 / 建议的分层验证（已实现） · Agent Runtime v1 / 三层评测（草案））。

阶段产物：

架构基线文档 v1（对应：系统架构（已实现））。
数据模型设计稿（对应：数据模式与关系（已实现） · Agent Runtime v1 / 用户业务记忆模型（草案））。
OpenAPI 草案（对应：接口契约（已实现） · 端点概览（已实现））。
评测脚本骨架（对应：评测与基准 / 当前状态（已实现））。

关联方案文档：

Agent Runtime v1（草案）
系统架构（已实现）
接口契约（已实现）
数据模式与关系（已实现）
评测与基准（已实现）

阶段 B - 核心能力 MVP

时间：2026-03-01 至 2026-03-31
目标：上线端到端可运行的核心能力闭环。

关键任务：

业务记忆 MVP：事实写入、混合检索、回溯建议、删除治理（方案直达：Agent Runtime v1 / 用户业务记忆模型（草案） · Agent Runtime v1 / 记忆能力 API 草案（草案） · RAG Retrieval Service / retrieve_context（已实现））。
自动任务 MVP：定时触发、重试补偿、执行审计（方案直达：Agent Runtime v1 / 自动任务与调度模型（草案） · IngestionService / run_ingestion_job（已实现））。
单证智能 MVP：OCR、结构化抽取、基础规则校验（方案直达：Parser 子系统 / 内置解析器（已实现） · Parser 子系统 / PDF 解析器（已实现））。

阶段产物：

可演示闭环：识别单证 -> 记忆沉淀 -> 下次建议（对应：RAG 知识库管理 / 核心操作（已实现））。
核心接口联调文档（对应：端点概览（已实现） · 接口契约（已实现））。
初版质量报告（对应：评测与基准 / 建议的分层验证（已实现））。

关联方案文档：

RAG 知识库管理（已实现）
Parser 子系统（已实现）
RAG Retrieval Service（已实现）
端点概览（已实现）

阶段 C - 治理与发布闭环

时间：2026-04-01 至 2026-04-30
目标：让平台能力可控发布、可追责回滚。

关键任务：

控制面接入：能力挂载、策略开关、灰度发布、回滚（方案直达：MCP 能力与接口 / 功能清单（已实现） · API 路线图 / MVP 扩展（规划中））。
AI 生成代码流程：生成 -> 校验 -> 评测 -> 审批 -> 灰度（方案直达：用户自定义前端可视化 / AI 代码生成系统（规划中） · 评测与基准 / 建议的分层验证（已实现））。
审计看板：会话、工具、记忆、发布四类链路可追踪（方案直达：端点概览 / MCP 调用审计端点（已实现） · Agent Runtime v1 / 数据与审计设计（草案））。

阶段产物：

可治理发布流程 v1（对应：MCP 能力与接口（已实现） · API 路线图（规划中））。
审计与追踪看板 v1（对应：端点概览 / MCP 调用审计端点（已实现））。
上线操作手册 v1（对应：评测与基准（已实现） · 用户自定义前端可视化（规划中））。

关联方案文档：

MCP 能力与接口（已实现）
接口契约（已实现）
评测与基准（已实现）
用户自定义前端可视化（规划中）

阶段 D - 试点与强化

时间：2026-05-01 至 2026-05-20
目标：在真实业务中验证价值并形成可复制模板。

关键任务：

选择 1 到 2 家试点客户上线（方案直达：MVP Phase 1 / 后端端点（已实现） · 详细设计 / MVP 路线（规划中））。
收集并优化命中率、采纳率、时延、异常率（方案直达：评测与基准 / 建议的分层验证（已实现） · Agent Runtime v1 / 门禁示例阈值（草案））。
固化行业模板：客服模板、单证模板、异常模板（方案直达：用户自定义前端可视化 / 模板分类（规划中） · API 路线图 / 会话与消息管理（规划中））。

阶段产物：

试点复盘报告（对应：MVP Phase 1（已实现））。
行业模板包 v1（对应：用户自定义前端可视化 / 模板与组件系统设计（规划中））。
Q2 优先级清单（对应：API 路线图（规划中） · 详细设计（规划中））。

关联方案文档：

MVP Phase 1（已实现）
详细设计（规划中）
API 路线图（规划中）

3. 每周里程碑

周期	里程碑	验收结果	方案直达
2026-02-11 ~ 2026-02-17	协议与记忆模型冻结	评审通过并锁定版本	接口契约 / AI Service 对接契约（已实现） · Agent Runtime v1 / 用户业务记忆模型（草案）
2026-02-18 ~ 2026-02-24	API 草案与评测骨架完成	可运行最小评测脚本	端点概览（已实现） · 评测与基准 / 建议的分层验证（已实现）
2026-02-25 ~ 2026-02-28	底座阶段收口	阶段 A 评审通过	系统架构（已实现） · Agent Runtime v1 / P0 第 1 到 3 周（草案）
2026-03-01 ~ 2026-03-14	记忆与任务 MVP 开发	端到端联调可跑通	Agent Runtime v1 / 自动任务与调度模型（草案） · IngestionService / `run_ingestion_job`（已实现）
2026-03-15 ~ 2026-03-31	单证智能 MVP 完成	MVP 质量报告发布	Parser 子系统 / 内置解析器（已实现） · RAG 知识库管理 / 核心操作（已实现）
2026-04-01 ~ 2026-04-15	控制面与灰度能力上线	可执行灰度与回滚	MCP 能力与接口 / 功能清单（已实现） · Agent Runtime v1 / P2 第 9 到 12 周（草案）
2026-04-16 ~ 2026-04-30	AI 生成代码发布流程上线	审批链路完整可审计	用户自定义前端可视化 / AI 代码生成系统（规划中） · 评测与基准 / 建议的分层验证（已实现）
2026-05-01 ~ 2026-05-20	客户试点与优化	试点复盘与模板沉淀	MVP Phase 1（已实现） · 详细设计 / MVP 路线（规划中）

4. 关键指标

4.1 平台效果指标

Agent 任务成功率 >= 0.85
RAG Recall@5 >= 0.80
引用准确率 >= 0.90
Tool 调用成功率 >= 0.98
P95 端到端时延 <= 8s

4.2 业务记忆指标

Memory 命中后建议采纳率 >= 0.60
Memory 回溯证据准确率 >= 0.90
记忆检索 P95 耗时 <= 800ms

5. 风险与应对

需求扩张过快：严格执行季度范围边界，新增需求进入 Q2。
评测集覆盖不足：优先补齐高频场景与高风险场景样本。
记忆质量波动：引入反馈闭环与低质量记忆衰减机制。
调度稳定性不足：增加幂等键、退避重试与人工补偿流程。

6. 沟通机制

每周例会：确认里程碑状态、风险与阻塞项。
双周评审：阶段产物演示与质量复盘。
月度治理会：发布策略、门禁阈值与灰度策略审定。

7. 验收标准

四个阶段均有可运行产物，不以 PPT 结项。
任意核心建议都可回溯到历史证据。
任意上线能力都可审计、可灰度、可回滚。
至少一个试点场景实现稳定复用。