跳转至

2026 Q1 执行计划

本文档将平台愿景拆解为可落地的季度执行路线,覆盖 2026 年 2 月 11 日到 2026 年 5 月 20 日。

1. 目标与范围

1.1 季度目标

  • 完成货代行业智能 Agent 平台的可试点版本。
  • 打通业务记忆闭环:写入、检索、回溯、治理。
  • 打通自动任务闭环:定义、调度、执行、审计。
  • 打通单证智能闭环:OCR、抽取、校验、建议。
  • 建立可发布治理闭环:评测、审批、灰度、回滚。

1.2 范围边界

  • 本计划优先平台核心能力,不覆盖所有行业插件。
  • 本计划以 v1 可用为目标,不追求一次性最佳性能。
  • AI 生成代码仅允许在评测与审批通过后进入灰度。

2. 阶段计划

在执行本计划时,建议按阶段结合下列方案文档阅读与落地,避免时间线与设计文档脱节。

标注说明:(已实现) 表示当前版本可对接能力,(规划中) 表示路线图内容,(草案) 表示设计草案待冻结。

2.1 方案文档总览

主题 方案文档
Runtime 总体设计 Agent Runtime v1 / 自动任务与调度模型(草案) · Agent Runtime v1 / 记忆能力 API 草案(草案)
系统架构 系统架构(已实现)
接口契约与 API 接口契约 / AI Service 对接契约(已实现) · 端点概览 / 核心会话端点(已实现)
数据模型 数据模式与关系(已实现) · 迁移与版本管理(已实现)
知识与检索 RAG 知识库管理 / 核心操作(已实现) · RAG Retrieval Service / retrieve_context(已实现)
单证解析能力 Parser 子系统 / 内置解析器(已实现)
工具能力与治理 MCP 能力与接口 / 功能清单(已实现)
评测与门禁 评测与基准 / 建议的分层验证(已实现) · Agent Runtime v1 / 评测与发布门禁(草案)
前端自定义 用户自定义前端可视化 / AI 代码生成系统(规划中)
试点与扩展 MVP Phase 1(已实现) · 详细设计 / MVP 路线(规划中) · API 路线图 / MVP 扩展(规划中)

阶段 A - 平台底座定版

  • 时间:2026-02-11 至 2026-02-28
  • 目标:冻结协议、模型和评测基线,确保后续开发不反复。

关键任务:

阶段产物:

关联方案文档:

阶段 B - 核心能力 MVP

  • 时间:2026-03-01 至 2026-03-31
  • 目标:上线端到端可运行的核心能力闭环。

关键任务:

阶段产物:

关联方案文档:

阶段 C - 治理与发布闭环

  • 时间:2026-04-01 至 2026-04-30
  • 目标:让平台能力可控发布、可追责回滚。

关键任务:

阶段产物:

关联方案文档:

阶段 D - 试点与强化

  • 时间:2026-05-01 至 2026-05-20
  • 目标:在真实业务中验证价值并形成可复制模板。

关键任务:

阶段产物:

关联方案文档:

3. 每周里程碑

周期 里程碑 验收结果 方案直达
2026-02-11 ~ 2026-02-17 协议与记忆模型冻结 评审通过并锁定版本 接口契约 / AI Service 对接契约(已实现) · Agent Runtime v1 / 用户业务记忆模型(草案)
2026-02-18 ~ 2026-02-24 API 草案与评测骨架完成 可运行最小评测脚本 端点概览(已实现) · 评测与基准 / 建议的分层验证(已实现)
2026-02-25 ~ 2026-02-28 底座阶段收口 阶段 A 评审通过 系统架构(已实现) · Agent Runtime v1 / P0 第 1 到 3 周(草案)
2026-03-01 ~ 2026-03-14 记忆与任务 MVP 开发 端到端联调可跑通 Agent Runtime v1 / 自动任务与调度模型(草案) · IngestionService / run_ingestion_job(已实现)
2026-03-15 ~ 2026-03-31 单证智能 MVP 完成 MVP 质量报告发布 Parser 子系统 / 内置解析器(已实现) · RAG 知识库管理 / 核心操作(已实现)
2026-04-01 ~ 2026-04-15 控制面与灰度能力上线 可执行灰度与回滚 MCP 能力与接口 / 功能清单(已实现) · Agent Runtime v1 / P2 第 9 到 12 周(草案)
2026-04-16 ~ 2026-04-30 AI 生成代码发布流程上线 审批链路完整可审计 用户自定义前端可视化 / AI 代码生成系统(规划中) · 评测与基准 / 建议的分层验证(已实现)
2026-05-01 ~ 2026-05-20 客户试点与优化 试点复盘与模板沉淀 MVP Phase 1(已实现) · 详细设计 / MVP 路线(规划中)

4. 关键指标

4.1 平台效果指标

  • Agent 任务成功率 >= 0.85
  • RAG Recall@5 >= 0.80
  • 引用准确率 >= 0.90
  • Tool 调用成功率 >= 0.98
  • P95 端到端时延 <= 8s

4.2 业务记忆指标

  • Memory 命中后建议采纳率 >= 0.60
  • Memory 回溯证据准确率 >= 0.90
  • 记忆检索 P95 耗时 <= 800ms

5. 风险与应对

  • 需求扩张过快:严格执行季度范围边界,新增需求进入 Q2。
  • 评测集覆盖不足:优先补齐高频场景与高风险场景样本。
  • 记忆质量波动:引入反馈闭环与低质量记忆衰减机制。
  • 调度稳定性不足:增加幂等键、退避重试与人工补偿流程。

6. 沟通机制

  • 每周例会:确认里程碑状态、风险与阻塞项。
  • 双周评审:阶段产物演示与质量复盘。
  • 月度治理会:发布策略、门禁阈值与灰度策略审定。

7. 验收标准

  • 四个阶段均有可运行产物,不以 PPT 结项。
  • 任意核心建议都可回溯到历史证据。
  • 任意上线能力都可审计、可灰度、可回滚。
  • 至少一个试点场景实现稳定复用。