强推理模型下,Agent workflow 仍有必要吗?

内容摘要机器之心PRO · 会员通讯 Week 13--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---1. 强推理模型下,Agent workflow 仍有必要吗?为什么说大模型本身才是构建 AI 智能体的关键?Anth

机器之心PRO · 会员通讯 Week 13

--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---

1. 强推理模型下,Agent workflow 仍有必要吗?

为什么说大模型本身才是构建 AI 智能体的关键?Anthropic 定义的两类智能体之间核心的区别是什么?更被看好的动态 Agents 的工作流是什么样的?为什么说 AI 智能体的基础模型的推理和编码能力很重要?哪些大模型更有可能成为下一代 Agent 的基座模型?...

2. 从「拼能力」到「拼盈利」,AI 视频生成赛道的格局已经变了?

视频生成赛道开始比拼盈利能力了?赛道变化的转折点在哪?国内外厂商如何收费?各家模型靠什么让用户付费?未来的视频生成模型要补足哪些能力?...

...本期完整版通讯含 2 项专题解读 + 26 项本周 AI Robotics 赛道要事速递,其中技术方面 11 项,国内方面 8 项,国外方面 7 项。

本期通讯总计 18643 字,可免费试读至 9% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① 强推理模型下,Agent workflow 仍有必要吗?

日期:3 月 28 日

Agent workflow 已经过时了吗?下一代 Agent 关键要靠模型本身的能力?

近期,Alexander Doria 发布的一篇博客文章引发关注。Alexander Doria 在文章中提到,「未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)」。同时,Alexander 以 Manus、OpenAI 的 DeepResearch 等智能体应用/功能为例做了区分。

1、Alexander 认为 Manus 是基于「预先编排好的提示词与工具路径」构成的工作流智能体,但在处理需要长期规划、多步骤推理的复杂任务中扩展能力不佳;OpenAI 的 DeepResearch 则是一种全新的研究型语言模型(Research Language Model),能够更加自主的执行任务。

2、Alexander 认为市面上大多数所谓的智能体公司,目前做的根本不是智能体,而是「工作流」(workflows),使用预先定义好的代码路径,串联 LLM 与其他工具。而未来真正的突破,必须是直接从模型层面入手,重新设计 AI 系统。[1-1]

Workflows、Agents,新旧两代 Agent 有何不同?

1、在 Anthropic 的一篇博客文章中,基于架构区别将智能体划分为两类:一类称为 Workflow(工作流),即通过预定义代码路径协调 LLM 和工具的系统;一类是动态 Agent,即 LLM 动态指导自身流程和工具使用、掌控完成任务方式的系统。[1-2]

2、这两类智能体之间的核心区别在于,Workflow 通过使用预先定义好的代码路径,串联 LLM 与其他工具来完成任务,但无法有效扩展,不适用于需要长期规划、多步骤推理的任务;动态 Agent 则是能够独立规划和操作,且具备「自我调整」的能力,自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。

3、传统的 Workflow 是目前常见的智能体产品使用的架构,常见的工作流模式包括:

① 提示链:将任务分解为一系列步骤,每个 LLM 调用处理前一个的输出,适用于可分解为固定子任务的情况,以延迟换取更高准确性。

② 路由:对输入进行分类并引导至专门后续任务,适用于存在可单独处理的不同类别的情况,避免一种输入的优化损害其他输入的性能。

③ 并行化:包括分段和投票两种方式,适用于可并行化子任务以提高速度,或需要多种视角、尝试以获得更有信心结果的情况。

④ 协调者-工作者:中心 LLM 动态分解任务并分配给工作者 LLM,适用于无法预测子任务的复杂任务,具有更高的灵活性。

⑤ 评估器-优化器:一个 LLM 调用生成响应,另一个提供评估和反馈,形成循环,适用于有明确评估标准且迭代细化有价值的场景。

4、相比于传统的 Workflow,动态 Agent 则更适用于需要处理复杂、动态任务的场景,适用于难以或无法预测所需步骤数量的开放式问题,且无法硬编码固定路径。

① 动态 Agent 的工作流程大致为:「规划-使用工具-反思」的循环,当使用者输入一个查询后,Agent 会先进行「规划」(Make a plan),接着「使用工具执行任务」(Execute actions with tools),再对结果进行「反思」(Reflect on results)。如结果不理想,Agent 会重新规划、再次执行,具备「自我调整」的能力。

② 以目前各家都在推出的 DeepSearch 功能为例,DeepSearch 在搜索过程中加入「推理」,通过多次搜索和推理的过程,最终得出更准确的答案。DeepSearch 的工作原理是不断地进行「搜索 → 推理 → 搜索 → 推理…」的循环,直到找到最合适的答案,或者达到 Token 限制为止。

5、一个动态 Agent 的基本构成包括 LLM(大型语言模型)、记忆、工具、提示词。其中,LLM 部分负责推理与决策,包括规划和反思两个能力。能够实现「自主独立」的 Agent,需要具备规划、执行和反思的能力,因此 LLM 本身的推理能力是核心关键。

Claude Sonnet 3.7、DeepSeek 新版 V3...谁更是更合适做下一代 Agents 的基座模型?

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1