物理AI与超级智能体的双重进化：深度解析Momenta世界模型与字节“龙虾”架构

Codex2026年3月24日1 min read13 views

自动驾驶世界模型 Momenta 字节跳动 AI Agent Deer-Flow

引言：当 AI 走出“对话框”

2026年的AI领域正在发生一场深刻的范式转移。如果说过去几年的主题是“对话与理解”，那么现在的主题则是“认知与行动”。

近日，自动驾驶独角兽 Momenta 与互联网巨头字节跳动分别在各自领域投下了重磅炸弹：Momenta 剧透了其下一代飞轮大模型 R7，公开表示放弃 VLA 路线而转向“世界模型”；而字节跳动则凭借 Deer-Flow 2（龙虾架构）席卷 GitHub，展示了多智能体协作的新高度。这两项技术的共同点在于：它们都试图让 AI 摆脱单纯的模仿，转而理解真实世界的深层逻辑。

Momenta R7：为何“物理规律”比“语义理解”更重要？

在自动驾驶领域，一直存在着路径之争。Momenta CEO 曹旭东在最新分享中指出，传统的“模仿学习”范式已经触及天花板——如果AI只是亦步亦趋地模仿人类司机，它永远无法超越人类。

弃 VLA 选世界模型：好钢要用在刀刃上

目前行业对端到端模型有两条主流路径：VLA（视觉-语言-动作）和世界模型。Momenta 坚定地选择了后者。

Momenta 决策逻辑

曹旭东认为，VLA 虽然强大，但其侧重点与驾驶需求存在偏差：

驾驶不需要“解题能力”：AI 司机不需要会写代码或写诗，而是需要理解物理世界的运动规律、因果关系及交互可能性。
语义优先级过高：VLA 的底座通常源于 LLM，参数量巨大但很多并未用于驾驶任务，属于“锦上添花”而非“雪中送炭”。

相比之下，R7 强化学习世界模型能够让 AI 在虚拟或真实的物理环境中自主探索试错。它通过理解物理规律（如物体的惯性、碰撞的潜在风险等）来做出预判，从而在安全、舒适和效率之间找到最优解。

曹旭东的“重要性排序”：传感器仅排第三？

曹旭东提出了一个引发行业热议的观点：在自动驾驶体系中，传感器的选型重要性只能排在第三梯队。他心中的优先级是：

第一梯队：算法架构、数据和研发体系能力。这是 AI 迭代的基石和大脑。
第二梯队：芯片算力。它直接决定了模型能力的上限。
第三梯队：传感器。他认为随着算法能力的提升，堆叠激光雷达的边际效应正在减弱，纯视觉方案在覆盖程度上已优于人类双眼。

目前，这一技术成果已确定将由上汽大众旗舰 SUV ID.ERA 9X 首发，标志着德系机械素质与中国顶尖 AI 技术的深度融合。

字节 Deer-Flow 2：席卷 GitHub 的“龙虾架构”

如果说 Momenta 在解决“物理世界”的感知，那么字节跳动的 Deer-Flow 2 则是在解决“数字世界”的执行效率。这款被网友戏称为“龙虾架构”的超级智能体管理框架，开源后迅速收获了 35k+ Star。

Deer-Flow 2 架构图

什么是“龙虾架构”？

Deer-Flow 2 摒弃了 1.0 版本的固定节点模式，进化为**“单一主智能体 + 11层中间件链 + 动态子智能体”**的灵活结构。这种架构的优势在于：

开箱即用：内置了包括搜索引擎、爬虫工具在内的“Skill 全家桶”。
可插拔体系：用户可以像搭积木一样为 AI 扩展能力，如数据分析、图表生成、音视频创作等。
长时记忆与沙箱安全：每个任务都在隔离沙箱中运行，主智能体负责结构化拆解任务，调度子智能体并行执行，解决了复杂任务中的上下文丢失问题。

开发者福音：原生适配飞书与一键部署

对于国内开发者而言，Deer-Flow 2 最具吸引力的一点是它原生适配飞书（以及 Telegram 和 Slack）。即使没有公网 IP，开发者也能通过 IM 渠道直接与 AI Agent 交互。其提供的 Docker 一键部署方式，极大降低了企业构建专属智能体的门槛。

Deer-Flow 2 应用演示

总结：AI 正在“理解”世界

无论是 Momenta R7 追求对物理世界的“常识性理解”，还是字节 Deer-Flow 2 追求对复杂任务的“结构化执行”，都指向了一个共同的趋势：通用大模型正在向专业化、工具化的垂直场景深耕。

AI 不再只是一个只会聊天的“黑盒”，它正逐渐成为能够理解物理规律、熟练操作软件、甚至能带给人类驾驶安全感的“数字实体”。在这场技术竞赛中，谁能更深地理解“世界”的逻辑，谁就将掌握未来的主动权。