110. 逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的力量”

张小珺Jùn|商业访谈录 - En podkast av 张小珺

我们又来读论文啦!!!今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder的技术报告,以及Manus的一篇技术博文。他们的相关性是,这几篇内容都和Agent有关系。今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是Language Agent,他会带我们一起读上述技术报告和博文。这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:)00:02:00 给Agent下定义和分类00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus的技术路线对比00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligencegithub.com00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and actionopenai.com红杉访谈OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yetwww.sequoiacap.com01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the Worldqwenlm.github.io01:59:04 第四篇技术博文:AI代理的上下文工程:构建Manus的经验教训(作者:Yichao 'Peak' Ji)manus.im02:06:06 展望:也许会有一个新的范式02:15:20 我感觉Agent是“我拓展的大脑”,我背后有一个“军团”(Family of Agents)02:16:41 不同Bot的语言风格:DeepSeek嘴臭,元宝舔狗智能体定义Agent是一种能够与环境进行交互(interaction)的智能系统。它具备两个基本能力:感知能力(Perception)能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。行动能力(Action)能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。简言之,Agent = 感知 + 行动在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。Agent 的定义与分类1. Coding Agent(代码智能体)代表产品:Cursor、Windsurf特点:代码生成与编辑能力强,用户体验优秀应用场景:代码补全、代码重构、多人协作编程2. Search Agent(搜索型智能体)特点:结合搜索引擎,自动完成信息检索和汇总应用场景:市场调研、报告生成、竞争对手分析等潜力:在企业级场景中有很强的应用价值3. Tool-Use Agent(工具使用型智能体)特点:能够调用多种外部工具完成复杂任务应用重点:是目前 Agent 研究和落地的主要方向举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务4. Computer Use Agent(电脑操作型智能体)代表产品:OpenAI Operator、Claude 的 Computer Use特点:模拟人类使用电脑,完成跨应用的复杂操作应用场景:执行流程自动化、远程助理、办公代理Agent 的技术路线对比1. In-Context Learning(上下文学习)特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行优势:无需微调,灵活性高局限:泛化能力弱,rollout 长度有限,容易失控2. End-to-End Training(端到端训练)特点:将 Agent 的全部行为编码进模型权重优势:推理稳定,可控性强局限:训练成本高,环境构建复杂Agent Training 的关键环节1. Data Synthesis(数据合成)方法:生成大量高质量的 trajectory(行动轨迹)用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆)2. Reinforcement Learning(强化学习)条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励)挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量3. Safety(安全性)问题风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控)展望:也许会有一个新的范式生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制)Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?