Agentic Context Engineering（ACE）：让大模型“越用越聪明”的上下文工程方法

你有没有发现：
大模型（LLM）很强，但做 Agent 任务时经常“踩坑反复踩”、今天学会明天忘？
那有没有一种办法，不训练模型参数，只靠“写更好的上下文”，就能让它持续变聪明？ <<Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models>>

这正是 ACE（Agentic Context Engineering）要解决的问题。

1. 背景：为什么“上下文工程”越来越重要？

现在很多企业/团队用大模型做：

自动化 Agent（写代码、调 API、执行任务）
垂直领域助手（金融/法律/医疗）
多工具协作（RAG、数据库、网页、脚本等）

但这些系统普遍有两个痛点：

痛点 A：提示词越改越短、越改越空

很多 prompt 优化方法会导致提示越来越“泛化”：

“你是一个专业助手，请谨慎、逐步推理……”

看起来很合理，但对实际任务帮助不大。作者把这个现象叫做 brevity bias（简短偏好）。

痛点 B：动态重写上下文容易崩

有些方法会整段重写系统提示，结果：

把细节经验浓缩掉
一次更新把之前积累的知识抹掉
性能直接掉回 baseline

作者称这种情况为 context collapse（上下文崩塌）。

2. ACE 的核心思想：把上下文当作“可进化的作战手册”

ACE 不把上下文当成“一段提示词”，而是当作一本可以不断增长的：

Playbook（作战手册）

手册里不是长篇大论，而是一条条“小颗粒知识”，称为 bullet，比如：

API 分页必须 while True，不要写死 range(10)
遇到 401 要先刷新 token
金融 XBRL 里某字段的含义是什么

每条 bullet 都有：

id
内容
统计信息：被认为 helpful/harmful 的次数

3. ACE 的工作流程：三角色闭环，让模型自我改进

ACE 的设计很工程化，它让同一个 LLM 扮演 3 个角色：

① Generator（执行者）

读取 playbook
执行任务（写代码/调 API/做推理）
记录自己用了哪些 bullet（bullet_ids）

② Reflector（老师）

任务做完后，Reflector 会复盘：

哪一步错了？
为什么错？
正确做法是什么？
这次应该记住什么？

并且给本次用到的 bullets 打标签：

helpful / harmful / neutral

③ Curator（知识管理员）

Curator 不会重写整本手册，而是只做增量更新：

只把“新发现的经验”写成新 bullet
以 ADD 的形式追加到对应章节
避免破坏旧经验

4. 为什么 ACE 有用？关键在“只追加，不重写”

ACE 解决了两个大问题：

✅ 避免 brevity bias

因为它不是把经验压缩成一句话，而是把经验拆成很多条 bullet。

结果就是：上下文可以长，但每条都具体、可执行。

✅ 避免上下文崩塌

因为它不做“一刀切”重写，而是增量增长。

就像软件工程里：

不会每次都重写整个系统
而是不断提交小 patch + review

5. Grow-and-Refine：手册越长怎么办？

ACE 还考虑了可维护性：

Grow（生长）

每次任务结束，新增一些 bullets。

Refine（精炼）

当手册变得太长：

用 embedding 相似度合并重复 bullets
harmful 次数高的条目降权或删除

这就像：

经验不断积累，但也会定期整理“知识库”

6. 实验结果：好上下文真的能补模型差距

论文在几个任务上验证了 ACE：

AppWorld（复杂 Agent 环境）

ACE 用开源模型 DeepSeek-V3.1，效果能逼近甚至超过强闭源系统。

说明：

工程上，“上下文+记忆”可以部分弥补模型能力差距

金融任务（FiNER / Formula）

这类任务对规则细节非常敏感，ACE 的长 playbook 特别占优势：

逐轮把规则写进手册
明显超过 ICL / 提示搜索等方法

7. 工程启发：ACE 其实就是“上下文层面的持续学习”

我觉得 ACE 对工程落地特别有价值：

对企业：把生产事故变成知识资产

每次模型犯错，其实都是一次“真实数据”：

错误日志
工具调用记录
单测/环境反馈

ACE 提供一个机制，把这些自动转成可用的 playbook 条目。

长期来看：

系统越来越稳定，而不是永远在重复踩坑

对垂直领域：长规则比短提示更可靠

比如金融/法律/医疗：

规则多
例外多
格式严格

这些都不适合被压成一句“你是专家”。

ACE 的 bullet 化知识更像“行业手册”。

8. 局限：ACE 依赖反馈质量

ACE 不是万能的，论文也明确指出：

如果没有标签
又没有可靠执行反馈（比如任务是否完成都不知道）

Reflector 就可能“瞎猜”，Curator 会把错误经验写进手册：

适配变成越学越坏

所以实际落地时，必须重视：

单测/校验器
自动评估信号
必要时人工审核

9. 一句话总结

ACE 把 prompt 工程升级成了“上下文工程闭环”：

用 playbook 记录经验
用反思更新经验
用精炼维护经验
让 LLM 系统越用越聪明、可审计、可回滚。