物理AI与超级智能体的双重进化:深度解析Momenta世界模型与字节“龙虾”架构
引言:当 AI 走出“对话框”
2026年的AI领域正在发生一场深刻的范式转移。如果说过去几年的主题是“对话与理解”,那么现在的主题则是“认知与行动”。
近日,自动驾驶独角兽 Momenta 与互联网巨头字节跳动分别在各自领域投下了重磅炸弹:Momenta 剧透了其下一代飞轮大模型 R7,公开表示放弃 VLA 路线而转向“世界模型”;而字节跳动则凭借 Deer-Flow 2(龙虾架构)席卷 GitHub,展示了多智能体协作的新高度。这两项技术的共同点在于:它们都试图让 AI 摆脱单纯的模仿,转而理解真实世界的深层逻辑。
Momenta R7:为何“物理规律”比“语义理解”更重要?
在自动驾驶领域,一直存在着路径之争。Momenta CEO 曹旭东在最新分享中指出,传统的“模仿学习”范式已经触及天花板——如果AI只是亦步亦趋地模仿人类司机,它永远无法超越人类。
弃 VLA 选世界模型:好钢要用在刀刃上
目前行业对端到端模型有两条主流路径:VLA(视觉-语言-动作)和世界模型。Momenta 坚定地选择了后者。

曹旭东认为,VLA 虽然强大,但其侧重点与驾驶需求存在偏差:
- 驾驶不需要“解题能力”:AI 司机不需要会写代码或写诗,而是需要理解物理世界的运动规律、因果关系及交互可能性。
- 语义优先级过高:VLA 的底座通常源于 LLM,参数量巨大但很多并未用于驾驶任务,属于“锦上添花”而非“雪中送炭”。
相比之下,R7 强化学习世界模型能够让 AI 在虚拟或真实的物理环境中自主探索试错。它通过理解物理规律(如物体的惯性、碰撞的潜在风险等)来做出预判,从而在安全、舒适和效率之间找到最优解。
曹旭东的“重要性排序”:传感器仅排第三?
曹旭东提出了一个引发行业热议的观点:在自动驾驶体系中,传感器的选型重要性只能排在第三梯队。他心中的优先级是:
- 第一梯队:算法架构、数据和研发体系能力。这是 AI 迭代的基石和大脑。
- 第二梯队:芯片算力。它直接决定了模型能力的上限。
- 第三梯队:传感器。他认为随着算法能力的提升,堆叠激光雷达的边际效应正在减弱,纯视觉方案在覆盖程度上已优于人类双眼。
目前,这一技术成果已确定将由上汽大众旗舰 SUV ID.ERA 9X 首发,标志着德系机械素质与中国顶尖 AI 技术的深度融合。
字节 Deer-Flow 2:席卷 GitHub 的“龙虾架构”
如果说 Momenta 在解决“物理世界”的感知,那么字节跳动的 Deer-Flow 2 则是在解决“数字世界”的执行效率。这款被网友戏称为“龙虾架构”的超级智能体管理框架,开源后迅速收获了 35k+ Star。

什么是“龙虾架构”?
Deer-Flow 2 摒弃了 1.0 版本的固定节点模式,进化为**“单一主智能体 + 11层中间件链 + 动态子智能体”**的灵活结构。这种架构的优势在于:
- 开箱即用:内置了包括搜索引擎、爬虫工具在内的“Skill 全家桶”。
- 可插拔体系:用户可以像搭积木一样为 AI 扩展能力,如数据分析、图表生成、音视频创作等。
- 长时记忆与沙箱安全:每个任务都在隔离沙箱中运行,主智能体负责结构化拆解任务,调度子智能体并行执行,解决了复杂任务中的上下文丢失问题。
开发者福音:原生适配飞书与一键部署
对于国内开发者而言,Deer-Flow 2 最具吸引力的一点是它原生适配飞书(以及 Telegram 和 Slack)。即使没有公网 IP,开发者也能通过 IM 渠道直接与 AI Agent 交互。其提供的 Docker 一键部署方式,极大降低了企业构建专属智能体的门槛。

总结:AI 正在“理解”世界
无论是 Momenta R7 追求对物理世界的“常识性理解”,还是字节 Deer-Flow 2 追求对复杂任务的“结构化执行”,都指向了一个共同的趋势:通用大模型正在向专业化、工具化的垂直场景深耕。
AI 不再只是一个只会聊天的“黑盒”,它正逐渐成为能够理解物理规律、熟练操作软件、甚至能带给人类驾驶安全感的“数字实体”。在这场技术竞赛中,谁能更深地理解“世界”的逻辑,谁就将掌握未来的主动权。
