PAACE：面向计划感知的自动化智能体上下文工程框架

PAACE: A Plan-Aware Automated Agent Context Engineering Framework

Authors: Kamer Ali Yuksel
Categories: cs.AI, cs.CL, cs.LG, cs.MA
Published: 2025-12-22
arXiv: Abstract | PDF

Abstract

Large Language Model (LLM) agents are increasingly deployed in complex, multi-step workflows involving planning, tool use, reflection, and interaction with external knowledge systems. These workflows generate rapidly expanding contexts that must be curated, transformed, and compressed to maintain fidelity, avoid attention dilution, and reduce inference cost. Prior work on summarization and query-aware compression largely ignores the multi-step, plan-aware nature of agentic reasoning. In this work, we introduce PAACE (Plan-Aware Automated Context Engineering), a unified framework for optimizing the evolving state of LLM agents through next-k-task relevance modeling, plan-structure analysis, instruction co-refinement, and function-preserving compression. PAACE comprises (1) PAACE-Syn, a large-scale generator of synthetic agent workflows annotated with stepwise compression supervision, and (2) PAACE-FT, a family of distilled, plan-aware compressors trained from successful teacher demonstrations. Experiments on long-horizon benchmarks (AppWorld, OfficeBench, and 8-Objective QA) demonstrate that PAACE consistently improves agent correctness while substantially reducing context load. On AppWorld, PAACE achieves higher accuracy than all baselines while lowering peak context and cumulative dependency. On OfficeBench and multi-hop QA, PAACE improves both accuracy and F1, achieving fewer steps, lower peak tokens, and reduced attention dependency. Distilled PAACE-FT retains 97 percent of the teacher's performance while reducing inference cost by over an order of magnitude, enabling practical deployment of plan-aware compression with compact models.

中文摘要：

随着大语言模型（LLM）智能体越来越多地被用于包含规划、工具调用、反思以及与外部知识系统交互的复杂多步工作流中，智能体在推理过程中会不断生成庞大且快速演化的上下文。这些上下文如果不加以精细管理与压缩，就会带来注意力分散、关键信息丢失以及推理成本过高等问题。现有的摘要与“按查询压缩”方法，大多把上下文视为静态文本，基本忽略了多步推理中“未来要做什么”（计划结构与后续任务）的信息需求。PAACE（Plan-Aware Automated Context Engineering）提出了一个统一的、面向智能体的上下文优化框架：通过“接下来若干步任务相关性建模”、计划结构分析、指令与计划的协同重写，以及在保持功能不变前提下的上下文压缩，来持续地重构和管理智能体的内部状态。具体而言，PAACE 包括两部分：(1) PAACE-Syn：一个大规模的合成智能体工作流生成与标注系统，针对每一步操作生成带有“如何压缩上下文”的监督信号，为训练计划感知压缩模型提供数据；(2) PAACE-FT：一组通过蒸馏获得的、面向计划感知的压缩模型家族，从性能更强的教师模型的成功演示中学习上下文裁剪与重构策略。实验在多个长时程基准（AppWorld、OfficeBench 与 8-Objective QA）上表明：PAACE 在显著减少上下文负载和依赖链长度的同时，持续提升智能体正确性。在 AppWorld 上，PAACE 在降低峰值上下文长度和累计依赖的条件下，取得了优于所有基线的准确率；在 OfficeBench 和多跳问答上，PAACE 提高了准确率与 F1，同时减少步骤数、峰值 token 数以及注意力依赖。经蒸馏得到的 PAACE-FT 在推理成本降低一个数量级以上的情况下，仍保留了教师约 97% 的性能，使得在实际系统中用较小模型部署“计划感知压缩”成为可能。

Deep Analysis

💡 这篇论文在研究什么？

可以把这篇论文的做法理解成：

“给 Agent 配一个专门的、会看计划的上下文整理助手，而且这个助手不是拍脑袋写规则，而是从大量成功案例里学来的。”

具体做法分三步：

1）先造很多“长流程任务”的训练样本

论文自己合成各种复杂任务：比如多应用办公流程、网页操作、长文档处理、带检索的多跳问答等，每个任务都带一个清晰的“计划分解”（步骤 1、2、3…）。
对每个任务，先让 Agent 在“不做任何压缩”的情况下跑一遍，得到“参考答案”。这代表“如果我什么都保留，结果长什么样”。

2）用大模型当教师，探索“哪些东西可以删、该怎么总结”

再让 Agent 跑同一个任务，但每一步之前都丢给一个“教师大模型”去压缩当前上下文：
- 教师会看到：当前的上下文 + 接下来几步要做什么（比如下一步是读表格，再下一步是生成报告）。
- 教师根据一个自然语言的压缩提示（prompt），把上下文重写/删减成更短的版本：只保留对接下来几步有用的信息。（比如保留表格结构和关键字段，丢掉无用日志。）
- Agent 接着只用这个压缩后的上下文来行动。
任务完成后，再把“压缩版跑出来的答案”和“原始全上下文跑出的答案”对比：
- 用 embedding 算文本相似度，要求够高；
- 再用另一个评判模型，看压缩版答案是不是变差了；
- 还要检查压缩比例是否真实（不能不压缩，不能压成空）。
只有当“压缩版的结果几乎一样好”时，这条完整执行轨迹才算一个有效示范：说明“在这些步骤，这些内容可以安全地删/改写”。这些示范记录了：在某个上下文 + 某个接下来计划下，教师是如何压缩的。

3）把大模型的压缩经验“蒸馏”给小模型

前面收集到大量示范：（未来几步的计划 + 当前上下文）→ 教师给出的压缩上下文。
拿一个中等大小的开源模型当学生，训练它在同样输入下，输出跟教师差不多的压缩结果。
训练完成后，实际部署时就不用再调用昂贵的大模型：
- 在每一步，让学生模型看看“现在所有上下文 + 接下来的几步计划”，它会自动给出一个更短、且对后续步骤足够的信息摘要。
- Agent 用这个压缩后的上下文继续执行任务。

4）怎么验证有效？

他们在几个已有的长流程基准上做对比实验：
- 和完全不压缩比，看是否能在减少 tokens 的同时保持甚至提升正确率；
- 和简单的“只留最近对话”、“向量检索选历史”、“纯摘要压缩”、以及 ACon 等方法比，看谁更准确、省算力。
结果显示：
- PAACE 一边让上下文明显变短，一边能把正确率维持甚至略微提升；
- 表明这些“计划感知、针对多步的上下文整理策略”确实学到了有效模式，而不是盲目删减。

用更直观的话说：

这篇文章不改变大模型本身，而是训练了一个“看计划的上下文整理小模型”，这个小模型在每一步帮你把历史信息、工具结果、指令等重新打包成“对接下来几步最有用”的紧凑状态。
而这个小模型之所以靠谱，是因为它模仿了一个昂贵大模型在大量任务上“压了也不掉链子”的行为。

🎯 发现了什么重要的东西？

这篇论文的价值不在于一个新的模型结构，而在于把“长流程 Agent 怎么管理上下文”这件事，从一堆零散技巧，变成了一个可学习、可评估的系统工程流程。

1）从“手工拼贴上下文”到“可学习的策略现在许多 Agent 实现都是靠规则：留最近几轮对话，删旧的；或者粗暴总结历史。但对真正复杂场景（跨应用、跨文档、多轮检索、多工具调用），这些规则往往要么漏信息，要么信息太多导致模型“看不过来”。

PAACE 的关键点是：

直接把上下文看作一个需要“策略优化”的状态，而不是“顺手拼接的字符串”。
通过对比“压缩前后最终结果是否保持”来学习策略，而不是依靠手写规则或局部启发式。这使得上下文管理可以像强化学习里的策略学习一样，有了清晰目标（结果不变 + 上下文变短）和数据来源（合成工作流 + 教师示范）。

2）用“看未来几步计划”的压缩，解决多步依赖问题大部分已有压缩方法只考虑“下一步要回答的问题是什么”，不考虑再下一步、下三步会用到什么。结果就是：

当前问题能答，但信息可能不足以支撑后续工具调用、复杂操作或反思步骤。 PAACE 强调 next-k：在压缩时把接下来几步工作一起看，把跨步的依赖（比如：这个字段现在看似无用，但两步后会用来聚合）也纳入考虑。这显著降低了长流程中“关键中间状态不见了”的风险。

3）通过大规模合成 + 蒸馏实现“性价比合理的智能压缩器” 如果每一步都调用一个超大模型去思考“该留啥、怎么改写”，虽然效果好，但成本极高。PAACE 的两阶段做法：

先离线用大模型 + 进化 prompt，在大量任务上探索出了“什么压缩方式既短又不丢结果”的示范；
再训练一个 4B 级别的学生模型去模仿这种行为。意味着真正部署时的额外推理成本很小，但获得了接近大模型的“上下文整理判断力”，这让在真实系统中频繁调用成为可能。

4）实验证明“压缩可以是增强，而不仅是节约” 值得注意的是，PAACE 在一些基准上的正确率甚至高于不压缩：

表明长上下文不仅没帮忙，反而造成注意力分散和推理混乱；
有选择地删除无关、过时、冲突的信息，让模型在一个“干净的状态”上继续推理，反而更稳。这帮助澄清一个误区：更长的上下文窗口不等于更好的表现，如果内容组织不好，大 context 甚至有害。

5）对后续研究和工业落地的意义

对研究者：PAACE 提供了一套生成合成工作流数据、自动筛选“功能保持压缩”、以及蒸馏压缩策略的流水线，可在其它环境中复用。
对工程落地：为各种 Agent 平台提供了一个可插拔的“上下文工程模块”思路——你可以把压缩器当作一个独立组件，在不改动主干模型的前提下，优化 token 成本和稳定性。
对未来方向：提示我们，要想让 Agent 可靠地跑很长的流程，除了模型本身要强，如何设计“计划感知的状态表示”和“可学习的上下文管理逻辑”同样关键。

🌍 对我们有什么影响？

从实际应用角度看，这篇工作可能带来的影响主要有几个方面：

1）让长流程 Agent 变得更加“可运营”

现实中要在企业或产品里落地复杂 Agent，经常遇到两个问题：
- 成本：多轮工具调用 + 大量长文档、日志，导致 token 费用飙升；
- 稳定性：上下文越长，模型越容易“迷路”，忘记关键约束或被旧信息干扰。
PAACE 给出一个可复用的模块：在不改 backbone 模型的前提下，通过训练一个小型压缩器，显著降低上下文长度，同时保持任务正确性甚至略有提升。这直接缓解了成本和稳定性矛盾，使很多“理论上可行但成本太高”的场景变得更现实。

2）提升复杂任务执行的可靠性

在自动化办公、数据分析、运维编排等场景中，任务往往跨多步、多工具、多文档。如果 Agent 在长流程中稍早步骤的信息被错误删掉或埋在噪声里，很容易导致后续决策错误。
PAACE 通过“看未来几步计划”的压缩方式，强调保留跨步依赖所需的信息。这意味着：
- 报表字段、关键参数、依赖链条等更有机会被正确保留；
- 冗余日志、过期中间结果、已无关的旧指令更容易被清理掉。
这有助于构建更可靠的大型自动化流程（如自动报表生成、自动实验流水线、复杂项目管理助理等）。

3）促进“上下文工程”成为独立工程实践

过去大家更多讨论 prompt engineering 和 RAG，忽视了在多轮、多工具的长流程中，如何持续维护一个干净、一致的 Agent 状态。
这篇论文把上下文工程定义清楚，并给出一个端到端、可学习的实现范式：
- 用合成数据生成 + 教师示范来学习策略，而不是依赖产品工程师在具体项目里写大量 ad-hoc 规则。
这会促使未来 Agent 系统设计中，出现独立的“Context Manager / Context Engineer”模块和角色，类似今天的“检索模块”和“向量库工程”。

4）对安全与合规的双刃剑效应

正面：
- 更短、结构更清晰的上下文有利于增加可审计性，也为后续引入安全检查、策略过滤创造空间；
- 通过控制压缩策略，可以优先保留合规与安全相关指令，提高安全性。
负面：
- 如果压缩策略没有考虑安全信号，可能误删安全指令、风险提示、来源信息，导致 Agent 在后续步骤中缺乏必要约束。
因此，在高风险场景下，PAACE 更适合作为“效率层”而不是“安全层”，需要结合专门的安全策略与人工监督。总体上，它提供了一个更可控的上下文入口，反而为安全机制提供了更清晰的挂载点。

5）对开源生态和工具链的推动

论文中教师使用大模型，但学生使用开源 4B 模型即可达到 97% 的性能，这对开源社区很友好：
- 说明只要有合适的数据和方法，小模型也可以在具体子任务（上下文工程）上表现接近大模型；
- 未来可能出现专门的、可即插即用的开源“PAACE-like 压缩器”模型，直接集成到各种 Agent 框架中。

综上，PAACE 不会让 Agent 立刻“变聪明很多”，但它切中了一个很现实的痛点：如何让长程、多工具的 Agent 在有限成本下可信地运行。它所提出的“计划感知上下文工程”理念，极有可能成为未来实际 Agent 系统架构中的一块标配。

📋 专业总结

研究方法

论文提出 PAACE，一个“计划感知”的上下文工程框架，核心方法论可以概括为三层：

1）把“上下文管理”形式化为策略学习问题

将一个多步 Agent 的状态视作随时间演化的上下文 Ct，而不是传统的隐式模型状态。
上下文由：系统提示 P、用户初始指令 I0、计划 Π=[τ1…τn]、历史思考 H0:t、工具结果 O0:t、检索文档 R0:t、长期记忆 M 等组成。
定义一个压缩映射：(\tilde{C}t = f(Ct, \Pi_{t:t+k}))，其中 f 是“计划感知”的压缩策略，显式条件化在“下一步到下一 k 步任务”上（next-k 任务）。
不去手工指定规则（比如显式图结构、信息论公式），而是通过“结果是否保持正确”来间接学习哪些内容需要保留、改写或丢弃。

2）两阶段框架：PAACE-Syn + PAACE-FT

PAACE-Syn：合成数据生成系统
- 随机采样多领域长流程任务 W=(I0, Π, {τi}, φ)：包括文档工作流、多应用操作（AppWorld）、检索 + 多跳问答等。
- 对每个 workflow，运行两次： a）无压缩：完整上下文 Cfull^t → 得到基准答案 (\hat{y}{full})。 b）有“教师压缩器”：在每一步 t，用大模型 + 自然语言压缩 prompt，给出压缩上下文 (\tilde{C}t)，仅基于 (\tilde{C}t) 执行 Agent → 得到压缩答案 (\hat{y}_{comp})。
- 设计筛选准则： • 使用固定 embedding 模型计算 cos 相似度 s=cos(embed((\hat{y}{full})), embed((\hat{y}{comp})))，要求 s≥θ（如 0.85）。 • 使用评判 LLM 对两答案做比较（好/坏 + 理由），若认定压缩答案更差则丢弃。 • 每步压缩率 rt=|(\tilde{C}t)|/|C_t| 要在 (0,1) 区间内，且压缩结果非空。
- 仅保留“成功轨迹”：即压缩不损害最终结果的一整条多步执行过程。
- 从这些轨迹中构造监督样本：输入为 (未来 k 步计划 Π{t:t+k} + 当前上下文 Ct)，输出为教师给出的压缩上下文 (\tilde{C}_t)。
教师压缩策略的 meta-learning
- 教师其实只是一个大模型 + 自然语言 prompt p，不改变模型权重，通过 prompt 演化来优化压缩行为。
- 维护一组 prompt 变体 {p_i}，并行在许多 workflow 上评估：记录成功率、语义相似度、压缩比等指标。
- 对 prompt 进行“进化”：根据综合得分选择、变异、替换，形成 steady-state 的黑盒优化过程。
- 最终得到一批“效果较好、稳定”的压缩 prompt，这些 prompt 生成的压缩轨迹用于蒸馏。
PAACE-FT：蒸馏出的学生压缩器
- 选择一个中小规模开源 LLM（如 Qwen3-4B-Instruct）作为学生模型。
- 训练目标：在给定 (Π{t:t+k}, Ct) 的输入时，自回归生成教师版本的压缩上下文 (\tilde{C}_t)。
- 损失函数为标准因果语言模型损失，仅对目标压缩文本 y=(\tilde{C}_t) 计算交叉熵，输入部分 x 不计入 loss。
- 不额外引入 RL、偏好优化等复杂机制，而是简单的监督蒸馏。

3）在线推理与实验评估设计

实际部署时，仅用学生压缩器：
1. 先由 Agent/planner 拿到计划 Π=(τ1…τn)。
2. 在每步 t：给学生模型输入 (当前上下文 Ct + 接下来 k 步任务 Π{t:t+k})，得到压缩上下文 (\tilde{C}_t)。
3. Agent 基于 (\tilde{C}t) 执行 τt，更新得到 C_{t+1}。
4. 重复直到任务结束，输出最终答案。
实验基线与指标：
- 统一固定 backbone、工具接口、推理配置，仅改变“上下文管理策略”。
- 对比 No Compression、FIFO、向量检索选历史、LLMLingua、简单 Prompt summarization、ACon 等。
- 在 AppWorld、OfficeBench、8-Objective QA 三个长程基准上，测： • 正确率 Acc / EM / F1； • 步数 Steps； • 峰值上下文长度 Peak； • 累积依赖 Dep=Σt |Ct|（估算总注意力开销）。
- Ablation：改变 next-k 中的 k（1/2/3），以及限制压缩器“只能删不能改写”，观察性能变化。

整体上，该方法是：用大模型 + 合成长流程 + 严格过滤，学出一个“计划感知的上下文压缩策略”，再蒸馏到小模型，在实际 Agent 中高频调用，以在保证结果质量前提下大幅减少上下文长度和注意力负担。

关键发现

提出了“上下文工程（context engineering）”这一比 prompt engineering / RAG 更宏观的概念，核心是面向多步计划的、持续的状态压缩与重构，而不是一次性提示词设计或单轮检索。
构建了 PAACE-Syn，一个大规模合成工作流生成与自动标注系统，生成约 120 万条长流程轨迹（约 95 亿 token），并为每步提供“教师压缩 vs 全上下文”的对照监督。
通过语义相似度 + LLM 评判 + 压缩率约束，筛选出“功能保持（function-preserving）”的压缩轨迹，用于训练学生模型 PAACE-FT，实现计划感知的上下文压缩。
实验表明，在 AppWorld、OfficeBench 和 8-Objective QA 上，PAACE 在降低上下文长度与累积依赖（注意力成本）的同时，不仅没有损伤任务表现，部分场景下还超过了不压缩和各类强基线（包括 ACon UTCO）。
PAACE 蒸馏出的学生模型 PAACE-FT 在保持 97–98% 教师压缩性能的前提下，将压缩推理成本下降了一个数量级，实际部署中每步额外延迟 <8%，但总 token 输入降低 35–60%。
消融实验显示：适度的 next-k 计划展望（工具类任务 k=2，多跳 QA k=3）明显优于只看下一步 (k=1)；若禁止重写、仅允许删减，长程任务失败率上升，说明“隐式指令重构”和结构化摘要对稳健性至关重要。
实证发现：计划感知压缩不仅是节约 token，更是一种“正则化”——通过删除冗余和冲突信息，反而提升 Agent 的稳定性，缓解长上下文下的“注意力稀释”和指令漂移。

局限性

理论层面比较“工程化”：虽然提到任务图、信息保留等概念，但当前实现并没有构建显式的任务图或信息论目标，更多是通过经验式、非可微的黑盒优化和结果对比来做决策，缺乏形式化保证。
监督信号完全依赖于 LLM 教师与 LLM 评判：embedding 相似度 + LLM 判断并不能保证语义完全等价，特别是安全、合规、精确数字等场景可能存在“看起来差不多但本质已错”的风险。
只在几个代表性的长流程基准上验证：虽然这些基准涵盖了应用操作、办公自动化、多跳 QA，但现实企业场景往往更复杂、多样；PAACE 当前的压缩策略明显是“环境/任务特定”的，对跨领域迁移能力尚未系统评估。
对计划 Π 的质量有隐含依赖：在访问不到或计划严重偏离真实需求的场景下，next-k conditioning 可能仍然工作，但效果会劣化；论文仅称“退化是平滑的”，缺少更细致的异常情况分析。
目前不处理安全/对齐为主目标：压缩过程可能删掉安全相关指令、审计信息或来源说明等，对高风险业务（医疗、金融、司法等）直接套用存在隐患，需要额外安全层和人工审核。
没有给出系统的错误分析：例如 PAACE 失败的典型模式、在哪类链路上容易过度压缩或指令漂移、与 ACon 等方法的精细差异，论文主要给宏观指标，对开发者构建直觉略显不足。
缺乏对“压缩频率、粒度、位置”这类系统设计问题的系统探索：例如是否需要每步都压缩、是否对某些类型步骤更适合压缩等，当前设定较固定，未充分讨论。

未来工作方向

未来可以沿着几个方向扩展：

1）更强的形式化与可验证性

将目前“经验式指标”（embedding 相似度 + LLM 评判）扩展为可选的形式化验证：
- 对特定领域（如代码、SQL、表格操作）引入可执行校验（单元测试、约束检查）来确认压缩不改变可执行结果；
- 用符号推理或约束求解器，验证关键约束在压缩上下文中是否被保留。
把任务图、因果依赖显式建模为图结构，对图上的信息流进行可视化和分析，进一步指导压缩策略的设计和调优。

2）跨领域与跨环境泛化

目前 PAACE 明显针对特定基准与任务类型进行训练，后续可以：
- 在更多真实、多样环境（代码协作、数据分析流水线、复杂企业流程）上生成 PAACE-Syn 式合成数据；
- 探索“领域自适应”的压缩器：例如用少量领域特定轨迹做轻量微调，使通用压缩器快速适配新环境。

3）与记忆体系、架构级方法结合

将 PAACE 与 MemAgent、分层记忆等架构结合：
- PAACE 负责“工作记忆部分”的精简与重写；
- 长期记忆、向量库则负责存储原始信息和细节，必要时再拉回。
探索与 Compressive Transformer、GoA 等架构级长上下文模型的协作：在模型内部和外部两层做压缩与筛选，进一步降低注意力负担。

4）更细粒度、可控的压缩策略

增加“压缩风格/策略控制”：
- 例如暴露开关：更保守（优先保真）、更激进（优先成本）、偏向保留指令/偏向保留数据等；
- 支持对不同类型内容（日志、工具输出、用户指令、计划）应用不同压缩力度和重写策略。
研究如何让最终用户或系统工程师，通过简单配置或自然语言“压缩政策”来影响 PAACE 的行为。

5）错误模式与可解释性分析

系统性收集 PAACE 失败案例，归纳出典型模式（如遗漏隐性约束、误删中间变量、指令重写过度简化等）。
增强压缩过程的可解释性：让压缩器给出“保留/删除/改写”的理由，便于调试和人工审查。

6）压缩频率与调度策略

探索在长流程中“什么时候压缩、压缩多少”的策略学习：
- 譬如在大段工具输出后压缩一次，而在短对话轮次不压；
- 学习型调度：根据上下文长度、计划剩余步骤等动态决定是否调用 PAACE。

整体评价

总体来看，PAACE 的贡献主要是“方法论与系统工程”：

它不试图通过新模型架构直接解决长上下文问题，而是围绕“多步 Agent 的上下文状态”设计了一套可学习的压缩与重构框架，把 context engineering 提升为一等公民。
方法上，PAACE 巧妙地使用合成工作流 + 教师大模型 + prompt 进化 + 严格结果过滤来提取高质量监督，再用简单的监督蒸馏训练小模型，这条链路在工程上是务实且可落地的。
实验结果在多个基准上较为稳健：一方面证明了“仅靠加大 context window”不足以解决长程推理，另一方面表明“计划感知的上下文压缩”可以在不牺牲甚至提升性能的前提下显著降低 token 成本与注意力负载。
局限性主要在理论保证不足、对 LLM 教师和评判的依赖、以及环境和任务特定性较强。但作为一篇偏系统与工程的工作，这些不足是可理解的，也为后续工作留出了空间。

综合评价：PAACE 为构建真实可用的长程 LLM Agent 提供了一个关键但此前被忽视的模块——系统化的上下文工程。它证明了“学习一个计划感知的上下文压缩策略”不仅可行，而且能带来实实在在的性能与成本收益，是当前 Agent 研究中非常有启发性的方向。

Generated by Citeo - arXiv RSS subscription with AI summarization

Search