InfiAgent:让 AI Agent 像“做项目”一样工作(而不是把聊天记录堆到爆)
论文:InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents(arXiv:2601.03204)
一句话总结:别再把所有历史塞进 prompt,当 Agent 任务变长时,应该把“真实状态”写进文件系统,用文件驱动后续决策。
1. 为什么现在的 Agent 一做长任务就崩?
假设你让一个 AI Agent 做一个“长任务”,比如:
- 写一篇综述:读 80 篇论文 → 每篇总结 → 最后写总报告
- 做一个产品调研:找资料 → 做表格 → 写结论 → 出 PPT
- 写代码:需求拆解 → 写模块 → 跑测试 → 修 bug → 完整交付
很多 Agent 的实现方式是:
✅ 每一步都把之前的所有内容(对话、计划、工具结果)塞进 prompt
❌ prompt 越来越长 → 只能截断/总结 → 关键信息丢失 → 推理变乱 → 甚至重复劳动、提前结束
这就是典型问题:
- 重要细节丢了(被截断或总结压缩掉)
- 无关内容越来越多(干扰推理)
- 早期错误被不断引用(越错越深)
2. InfiAgent 的核心思想:把 Agent 的“长期状态”放到文件里
InfiAgent 提出一个非常朴素但很关键的想法:
别把 prompt 当作记忆
把任务的真实进展写进文件(像做项目一样)
让 Agent 每一步都从“项目文件夹”里读取状态,再做下一步。
你可以把它理解成:
LLM 是大脑的“思考模块”
文件系统是大脑的“长期记忆”
3. 传统 Agent vs InfiAgent:对比一下就懂了
3.1 传统 Agent(Context-centric)
问题: prompt 会无限膨胀(或者被迫压缩),导致任务越长越不稳定。
3.2 InfiAgent(File-centric)
关键变化:
- 长期状态放在 Workspace 文件夹
- prompt 每次只取:
- 关键文件/摘要
- 最近 k 步动作窗口
- 所以 prompt 长度始终可控(不会随任务增长)
4. Workspace 里到底存什么?(像项目目录一样)
InfiAgent 把“任务真正的进展”定义为一批文件(可无限增长):
- 做过哪些子任务
- 中间结论、表格
- 工具调用的原始输出
- 代码、日志、验证结果
- 定期维护的 summary / checkpoint
你可以想象一个目录结构:
workspace/
goal.md # 总目标
plan.md # 分解计划
progress.md # 当前进度
summaries/
paper_01.md
paper_02.md
...
tool_outputs/
search_results.json
pdf_notes.md
code/
analysis.py
checkpoints/
checkpoint_001.md
5. “无限时序”的秘密:每一步都重建一个有界上下文
论文里有个非常核心的公式(别怕,其实很好懂):
每一步的推理上下文是:
ct = g(文件状态 Ft, 最近 k 步动作 a_{t-k:t-1})
意思就是:
- 你不需要记住所有历史
- 你只需要:
- “项目文件夹里现在是什么样”
- “最近几步我刚做了什么”
- 然后拼出一个固定长度 prompt 给 LLM
所以任务可以跑 100 步、10,000 步,都不会让上下文爆炸。
6. 分层多 Agent:让系统像组织结构一样稳定
InfiAgent 不只把状态外置,还做了一个分层架构:
- Alpha Agent(总导演):负责总体规划、拆解任务、调度
- Domain Agents(专家):写代码/查资料/写论文等
- Atomic Agents(原子工具代理):搜索、读 PDF、文件读写等
为什么这样好?
因为扁平多 Agent 很容易出现:
- 多个 Agent 同时改同一个状态 → 冲突
- 工具调用混乱 → 不知道谁做了什么
- 结论来源不清晰 → 难以审计
分层 + 串行调用(上层把下层当工具)就会稳定很多。
7. 最关键的工程技巧:大文档不进主上下文,交给“读文工具”
读 80 篇论文这种事,如果让主 LLM 一篇篇塞进 prompt,会直接爆炸。
InfiAgent 做法:
- 主 Agent 不读全文
- 主 Agent 只问:“去第 17 篇里找关于 X 的结论”
- 让一个短命子工具去读 PDF,然后只返回关键信息
- 主 Agent 把结果写回 workspace
你可以把它理解为:
主脑不自己读完所有论文,而是派“临时助理”去读,然后把要点记进笔记本。
8. 论文怎么验证它真的更稳?
作者做了两个很关键的评测:
8.1 DeepResearch 基准(多步研究任务)
看 InfiAgent 的综合评分能不能跟大闭源系统对打。
结果:
在 InfiAgent 框架下,一个 20B 开源模型可以接近甚至超过一些依赖更大闭源模型、但架构朴素的系统。
含义:好架构可以部分抵消模型规模差距
8.2 80 篇论文综述任务(非常贴近真实科研)
要求系统:
- 读完 80 篇
- 每篇写总结
- 给相关性评分
关键指标叫 覆盖率 coverage:
多少篇论文真的被读了并总结
而不是中途放弃、跳过、或只复述标题
结果:InfiAgent 覆盖率明显更高,并且更稳定。
作者还做了对照实验(ablation):
- 去掉文件态
- 换成“长上下文 + 总结”传统做法
- 其他都不变
结果覆盖率显著下降 → 证明:
长上下文 ≠ 持久状态
你再长的上下文,也不等于一个可持续、可审计的任务状态系统。
9. InfiAgent 带来的实际意义(对我们有什么用?)
9.1 更可靠的长期 AI 助手
适合:
- 综述/研究
- 产品调研
- 工程研发
- 运维排障
- 报告生成
因为它更像“项目管理”,不容易跑着跑着忘记做过什么。
9.2 降低对巨型闭源模型的依赖
如果 20B 开源模型 + 好架构
能接近 200B/1000B 闭源模型 + 烂架构
那很多公司就能:
- 自托管
- 成本更低
- 数据更安全
9.3 可审计、可追责、可回溯
因为所有步骤都写进文件、日志里:
- 你可以检查结论来源
- 可以回放每一步
- 可以做 rollback(回滚)
- 可以插入人类审核
10. 这套方法的局限(论文也很诚实)
InfiAgent 并不是魔法,它的局限包括:
- 不会提升模型本身推理能力
(如果模型错了并写进文件,错也会传播) - 文件 I/O 和管理有成本 → 延迟更高
- 串行执行更稳定,但吞吐量不如并行
- 还没完全验证在动态环境(机器人/游戏等)是否同样有效
- 超大规模 workspace 可能会膨胀,需要更好的整理策略
11. 用一句话告诉小白:InfiAgent 到底是什么?
InfiAgent 就是把 AI Agent 从“聊天机器人”升级为“项目型协作助手”:
它把长期记忆放进文件系统,每一步只读取关键状态 + 最近行动,从而能稳定跑很久。
12. 你可以怎么把它用在自己的 Agent 项目里?
如果你在做 Agent,可以直接照这个 checklist 做:
✅ 给每个任务一个 workspace 文件夹
✅ 任何工具结果都写进文件(不要只放在对话里)
✅ 每一步只取:
- progress.md(进度)
- plan.md(计划)
- summary.md(摘要)
- 最近 10 步 action log
✅ 大文档交给子工具读,主 Agent 只接收提炼结果
✅ 分层:规划 / 执行 / 工具调用拆开
参考链接
- arXiv: 2601.03204
- PDF: 2601.03204.pdf