InfiAgent：让 AI Agent 像“做项目”一样工作（而不是把聊天记录堆到爆）

论文：InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents（arXiv:2601.03204）
一句话总结：别再把所有历史塞进 prompt，当 Agent 任务变长时，应该把“真实状态”写进文件系统，用文件驱动后续决策。

1. 为什么现在的 Agent 一做长任务就崩？

假设你让一个 AI Agent 做一个“长任务”，比如：

写一篇综述：读 80 篇论文 → 每篇总结 → 最后写总报告
做一个产品调研：找资料 → 做表格 → 写结论 → 出 PPT
写代码：需求拆解 → 写模块 → 跑测试 → 修 bug → 完整交付

很多 Agent 的实现方式是：

✅ 每一步都把之前的所有内容（对话、计划、工具结果）塞进 prompt
❌ prompt 越来越长 → 只能截断/总结 → 关键信息丢失 → 推理变乱 → 甚至重复劳动、提前结束

这就是典型问题：

重要细节丢了（被截断或总结压缩掉）
无关内容越来越多（干扰推理）
早期错误被不断引用（越错越深）

2. InfiAgent 的核心思想：把 Agent 的“长期状态”放到文件里

InfiAgent 提出一个非常朴素但很关键的想法：

别把 prompt 当作记忆
把任务的真实进展写进文件（像做项目一样）
让 Agent 每一步都从“项目文件夹”里读取状态，再做下一步。

你可以把它理解成：
LLM 是大脑的“思考模块”
文件系统是大脑的“长期记忆”

3. 传统 Agent vs InfiAgent：对比一下就懂了

3.1 传统 Agent（Context-centric）

Mermaid Loading...

CodeBlock Loading...

问题： prompt 会无限膨胀（或者被迫压缩），导致任务越长越不稳定。

3.2 InfiAgent（File-centric）

Mermaid Loading...

CodeBlock Loading...

关键变化：

长期状态放在 Workspace 文件夹
prompt 每次只取：
- 关键文件/摘要
- 最近 k 步动作窗口
所以 prompt 长度始终可控（不会随任务增长）

4. Workspace 里到底存什么？（像项目目录一样）

InfiAgent 把“任务真正的进展”定义为一批文件（可无限增长）：

做过哪些子任务
中间结论、表格
工具调用的原始输出
代码、日志、验证结果
定期维护的 summary / checkpoint

你可以想象一个目录结构：

workspace/
  goal.md                 # 总目标
  plan.md                 # 分解计划
  progress.md             # 当前进度
  summaries/
    paper_01.md
    paper_02.md
    ...
  tool_outputs/
    search_results.json
    pdf_notes.md
  code/
    analysis.py
  checkpoints/
    checkpoint_001.md

5. “无限时序”的秘密：每一步都重建一个有界上下文

论文里有个非常核心的公式（别怕，其实很好懂）：

每一步的推理上下文是：
ct = g(文件状态 Ft, 最近 k 步动作 a_{t-k:t-1})

意思就是：

你不需要记住所有历史
你只需要：
- “项目文件夹里现在是什么样”
- “最近几步我刚做了什么”
然后拼出一个固定长度 prompt 给 LLM

所以任务可以跑 100 步、10,000 步，都不会让上下文爆炸。

6. 分层多 Agent：让系统像组织结构一样稳定

InfiAgent 不只把状态外置，还做了一个分层架构：

Alpha Agent（总导演）：负责总体规划、拆解任务、调度
Domain Agents（专家）：写代码/查资料/写论文等
Atomic Agents（原子工具代理）：搜索、读 PDF、文件读写等

Mermaid Loading...

CodeBlock Loading...

为什么这样好？

因为扁平多 Agent 很容易出现：

多个 Agent 同时改同一个状态 → 冲突
工具调用混乱 → 不知道谁做了什么
结论来源不清晰 → 难以审计

分层 + 串行调用（上层把下层当工具）就会稳定很多。

7. 最关键的工程技巧：大文档不进主上下文，交给“读文工具”

读 80 篇论文这种事，如果让主 LLM 一篇篇塞进 prompt，会直接爆炸。

InfiAgent 做法：

主 Agent 不读全文
主 Agent 只问：“去第 17 篇里找关于 X 的结论”
让一个短命子工具去读 PDF，然后只返回关键信息
主 Agent 把结果写回 workspace

Mermaid Loading...

CodeBlock Loading...

你可以把它理解为：
主脑不自己读完所有论文，而是派“临时助理”去读，然后把要点记进笔记本。

8. 论文怎么验证它真的更稳？

作者做了两个很关键的评测：

8.1 DeepResearch 基准（多步研究任务）

看 InfiAgent 的综合评分能不能跟大闭源系统对打。

结果：
在 InfiAgent 框架下，一个 20B 开源模型可以接近甚至超过一些依赖更大闭源模型、但架构朴素的系统。

含义：好架构可以部分抵消模型规模差距

8.2 80 篇论文综述任务（非常贴近真实科研）

要求系统：

读完 80 篇
每篇写总结
给相关性评分

关键指标叫 覆盖率 coverage：

多少篇论文真的被读了并总结
而不是中途放弃、跳过、或只复述标题

结果：InfiAgent 覆盖率明显更高，并且更稳定。

作者还做了对照实验（ablation）：

去掉文件态
换成“长上下文 + 总结”传统做法
其他都不变

结果覆盖率显著下降 → 证明：

长上下文 ≠ 持久状态
你再长的上下文，也不等于一个可持续、可审计的任务状态系统。

9. InfiAgent 带来的实际意义（对我们有什么用？）

9.1 更可靠的长期 AI 助手

适合：

综述/研究
产品调研
工程研发
运维排障
报告生成

因为它更像“项目管理”，不容易跑着跑着忘记做过什么。

9.2 降低对巨型闭源模型的依赖

如果 20B 开源模型 + 好架构
能接近 200B/1000B 闭源模型 + 烂架构

那很多公司就能：

自托管
成本更低
数据更安全

9.3 可审计、可追责、可回溯

因为所有步骤都写进文件、日志里：

你可以检查结论来源
可以回放每一步
可以做 rollback（回滚）
可以插入人类审核

10. 这套方法的局限（论文也很诚实）

InfiAgent 并不是魔法，它的局限包括：

不会提升模型本身推理能力
（如果模型错了并写进文件，错也会传播）
文件 I/O 和管理有成本 → 延迟更高
串行执行更稳定，但吞吐量不如并行
还没完全验证在动态环境（机器人/游戏等）是否同样有效
超大规模 workspace 可能会膨胀，需要更好的整理策略

11. 用一句话告诉小白：InfiAgent 到底是什么？

InfiAgent 就是把 AI Agent 从“聊天机器人”升级为“项目型协作助手”：
它把长期记忆放进文件系统，每一步只读取关键状态 + 最近行动，从而能稳定跑很久。

12. 你可以怎么把它用在自己的 Agent 项目里？

如果你在做 Agent，可以直接照这个 checklist 做：

✅ 给每个任务一个 workspace 文件夹
✅ 任何工具结果都写进文件（不要只放在对话里）
✅ 每一步只取：

progress.md（进度）
plan.md（计划）
summary.md（摘要）
最近 10 步 action log
✅ 大文档交给子工具读，主 Agent 只接收提炼结果
✅ 分层：规划 / 执行 / 工具调用拆开

参考链接

arXiv: 2601.03204
PDF: 2601.03204.pdf

Search

InfiAgent：让 AI Agent 像“做项目”一样工作（而不是把聊天记录堆到爆）

1. 为什么现在的 Agent 一做长任务就崩？

2. InfiAgent 的核心思想：把 Agent 的“长期状态”放到文件里

3. 传统 Agent vs InfiAgent：对比一下就懂了

3.1 传统 Agent（Context-centric）

3.2 InfiAgent（File-centric）

4. Workspace 里到底存什么？（像项目目录一样）

5. “无限时序”的秘密：每一步都重建一个有界上下文

6. 分层多 Agent：让系统像组织结构一样稳定

为什么这样好？

7. 最关键的工程技巧：大文档不进主上下文，交给“读文工具”

8. 论文怎么验证它真的更稳？

8.1 DeepResearch 基准（多步研究任务）

8.2 80 篇论文综述任务（非常贴近真实科研）

9. InfiAgent 带来的实际意义（对我们有什么用？）

9.1 更可靠的长期 AI 助手

9.2 降低对巨型闭源模型的依赖

9.3 可审计、可追责、可回溯

10. 这套方法的局限（论文也很诚实）

11. 用一句话告诉小白：InfiAgent 到底是什么？

12. 你可以怎么把它用在自己的 Agent 项目里？

参考链接

关键洞察