具身智能无共识,就是最好的共识
在技术早期,总有人试图寻找唯一正确的路线,希望通过一次性押注来穿越迷雾。但具身智能的复杂性正在提醒行业,具身智能不是从一条路径长出来,而是从无数次试错、冲突与调和中被“雕刻”出来。模型不完美,数据不完整,架构不统一,这听上去像缺陷,却恰恰是具身智能最真实的生命力所在。
意料之内的是具身智能在2025年末依然保持高昂姿态前行。
更在意料之内的是,具身智能依然没有共识。
2025智源具身OpenDay圆桌论坛上,国内最顶尖的具身从业者来了一场“各执一词的真心话”,无论是模型架构的选择,还是数据的使用都未能在圆桌对话上找到统一的发展方向。一时间不少人对于具身智能仍无共识这事儿,抱有遗憾。
但具身研习社认为,“无共识”的另一层意思是具身智能仍值得期待,技术还会在不经意间“偷袭”。毕竟,有明确风向了反倒是略显无聊。当我们不再诉诸“确定性”,其实能够看出一些趋势。或许“无共识”本身就是一种共识。
图片来源:智源研究院
从产业视角来看,共识的缺失有三重利好意义:
其一,无共识本质上打破了单一技术路线的垄断性话语权,避免行业陷入“路径依赖”的创新陷阱。在具身智能领域,从“分层架构 vs 端到端”的技术路线分歧,到“通用人形机器人vs场景化具身智能”的落地选择,无共识状态让不同技术理念、学科背景的团队获得平等试错空间;
其二,成熟行业的共识往往伴随着高准入壁垒,而具身智能的“无共识”状态,为中小企业、初创团队乃至跨界玩家提供了弯道超车的机会。无需遵循既有的技术标准或商业规则,新入局者可凭借差异化优势切入赛道。
其三,具身智能作为交叉学科赛道,其技术基础仍在快速迭代,过早形成共识反而可能固化技术路径,限制行业向更高维度突破。无共识状态的核心价值,在于为技术迭代预留了“弹性空间”。
在智源具身OpenDay圆桌论坛上,讲述了太多“无共识”,也折射出更多可能性。具身研习社基于在场嘉宾的回答,洞察出具身智能五大信号,未来发展的方向或许就藏在信号中。
模型还不够好,有人要另起炉灶
信号1:世界模型暂时扛不起大梁
在具身智能的模型讨论中,“当红炸子鸡”世界模型是绕不开的话题。
它的核心价值在于“预测”。让机器人像人类一样,根据当前时空状态预判下一步变化,进而规划动作,这一点得到了圆桌嘉宾的普遍认可。北京大学助理教授、银河通用创始人王鹤以机器人运控为例,指出无论是人形机器人的足式行走、跳舞,还是灵巧手的精细操作,其底层控制逻辑都需要对物理交互的预测能力,而世界模型恰好能提供这种支撑,但要让世界模型真正服务于机器人,它的训练数据中必须包含更多机器人本身的数据。
但世界模型的短板同样突出,难以单独成为具身智能的“万能方案”。王鹤强调,当前很多世界模型依赖人类行为视频训练,可机器人的身体结构(如轮式底盘、多自由度机械臂)与人类差异巨大,这些数据对机器人实际操作的帮助有限。加速进化创始人兼CEO程昊也提到,在做饭、复杂装配等真实场景中,世界模型的预测精度仍不足,只能先通过分层模型解决简单任务,再逐步迭代升级。
信号2:模型要“另起炉灶”
既然现有模型难以满足需求,“打造具身专属模型”成为不少企业的共识。
清华大学交叉信息学院助理教授、星海图CTO 赵行表示,具身智能需要平行于大语言模型的“Large Action Model”,这类模型要以“动作”为核心,而非语言。他解释道,人类智能的进化是“先有动作、再有视觉、最后有语言”,机器人要适应物理世界,也应该遵循类似逻辑——比如开车时,人类靠视觉观察路况、靠动作操控方向盘,语言并未参与核心操作,具身模型也应优先打通“视觉-动作”的闭环。
自变量创始人兼CEO王潜的观点更为具体,他认为具身智能需要一套“物理世界基础模型”,既能控制机器人动作,又能作为世界模型预测物理规律。虚拟世界的多模态模型靠文字、图片训练,但物理世界的摩擦、碰撞、力反馈等精细过程,却是无法用语言准确描述的。当一个机器人抓取鸡蛋时,它需要感知蛋壳的脆弱度、调整握力,这种对物理属性的理解,必须依赖专门针对物理世界训练的模型。
信号3:从底层架构开始革新
过去几年,Transformer架构凭借跨模态处理能力,撑起了ChatGPT等大语言模型的爆发,但在具身智能领域,它的适用性正受到质疑。招商局集团AI首席科学家张家兴是这一观点的代表,他直言“具身智能不能走LLM到VLM的老路”。
在他看来,Transformer架构是以语言为核心,将视觉、动作等模态向语言映射,这与物理世界的操作逻辑相悖——人类做动作时,视觉感知直接指导肌肉运动,无需经过语言“翻译”。他透露,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,让视觉和动作直接交互,减少语言中介的损耗。
王鹤也补充道,Transformer作为一个跨模态的Attention机制,是很通用的。比如你发现它吞吐文模态、视频模态、声音模态都是可以的。但“今天具身的问题是,我们人有眼、耳、口、鼻、舌,这么多‘觉’,虽然从Attention的角度,把这些‘觉’Token化以后都能放到Transformer里,但是它在输出上好像不是那么的理想,根本挑战是数据问题以及与之对应的学习范式”。
王鹤提出,短期来看,仿真模拟与合成数据是突破探索速度的核心手段;长期来看,现实世界中人形机器人的规模必须持续快速扩张,只有足够大的“机器人人口”与能力提升相互推动,才能催生真正强大的具身大模型。
这种底层架构的不匹配,让行业意识到:要实现具身智能的突破,或许需要从架构根源上革新,而非在现有框架内修修补补。
数据依旧是卡点,且胃口越来越大
信号4:没有完美数据,只有适配选择
“数据是具身智能的燃料”,这是圆桌论坛的共识,但“用什么数据”却没有统一答案。由于不同数据类型各有优劣,企业普遍采取“多源融合、按需选择”的策略,根据任务场景匹配最合适的数据来源。真机数据是最“保真”的选择,能直接反映真实物理世界的交互规律,因此成为精细操作场景的首选。赵行所在的星海图团队,就坚持深入真实场景采集数据,他们把真实性、质量看作真实机器人的数采起点。智元机器人合伙人、首席科学家罗剑岚也强调,智元机器人也坚持真实数据,并且在数据采集中坚持真实场景而非单靠数采工厂,摸索一条通过机器人自主地去产生数据,构建起数据飞轮的道路。而仿真数据则凭借“低成本、可规模化”的优势,成为底层控制训练的主力。王鹤认为,在强化学习中,很多极端场景(如机器人摔倒、机械臂过载)难以在真机上反复测试,而仿真器可以快速生成大量类似数据,帮助模型学习应对策略。在他看来,模拟器并不是对真实世界的否定,而是以模拟器为始,它能够给具身企业一个很好的Base Controller,让我们能在真实世界里能把数据飞轮转起来。
程昊的加速进化团队也采取类似策略,先用仿真数据让机器人掌握基本运控能力,再用真机数据微调适配真实场景。“我们用仿真数据训练的一个目标,是让机器人接下来能获得更多真实数据,有了真实数据,整体能力才能再提升。”在程昊看来这很可能是一个螺旋上升的过程。
视频数据则成为基座模型训练的重要补充。智源研究院院长王仲远认为“视频数据训练基座模型”这一套逻辑其实跟现在小朋友刷手机来认识世界是一个原理——先通过视频学习到这个世界,再通过真实的交互体验来提升他们的技能。这些视频数据包含时空、因果、意图等多维度信息,且能大规模获取,是当前缺乏海量真机数据时的“折中最优解”。但在具身研习社追问“从视频中学习如何解决触觉跟力控精细化数据?”时王仲远也承认,视频中确实缺乏力反馈、触觉等信息,但这并不影响其价值。现在智源研究院具身智能实验室里也备有带力反馈数据的采集设备。视频数据更多用于“打基础”,还需结合其他数据做针对性优化、微调。
信号5:“数量”“质量”“种类”,具身企业全方位要数据
随着具身智能向复杂场景渗透,行业对数据的需求正不断升级,不仅“量”要大,“质”要高,“种类”也要更丰富,形成了越来越大的“数据胃口”。
首先是“量”的渴求,“互联网级别”数据成为行业共同的期待。如赵行认为,数据的规模化,能够反向的驱动模型的进化和智能的实现。王仲远也表示“更好的具身大模型,可能要等大量机器人在真实场景中解决具体问题、累积出‘具身智能互联网’级别的数据之后,才会出现”。换句话说,没有足够的数据,模型就像没吃饱的孩子,跑不快也长不壮。
当业内在为Generalist构建的27万小时真机数据集,疑似触碰到所谓规模化法则而欢呼时,王仲远对具身研习社坦言,“几十万小时的数据依然不能叫海量数据,还远没到ChatGPT时刻”。
图片来源:智源研究院
在“量”之外,是“质”的追求,“高质量数据比海量低质数据更有价值”的观点逐渐成为主流。王潜认为,数据虽然很重要,但不是简单的“越多越好”。
事实上,语言模型已经验证过,单纯堆数据规模未必带来最好效果,高质量、高效率的数据才是决定性因素。他认为在具身场景里,数据质量比数据总量更能拉开一个量级上的差距。在这里,站在金字塔顶尖的真机数据或许可以少,但很可能是打地基的那一层或者说是针对仿真、视频数据之外,扶大厦之将倾的存在。
最后是“种类”的丰富,多模态数据的需求日益迫切。随着机器人应用场景扩展,单一类型的数据已无法满足需求。比如在家庭服务场景中,机器人需要同时处理视觉(识别物体)、听觉(理解指令)、触觉(感知物体软硬)、力反馈(控制动作力度)等多维度信息。当前业内所说的多模态更能力,多是承袭基座大模型的视觉、语言能力,在真正物理交互中的触觉、力反馈等模态少之又少。
这种对数据种类的丰富需求,也让行业意识到:未来的数据采集,不仅要记录“机器人做了什么”,还要记录“环境发生了什么”“交互有何反馈”“人类需要什么”,才能让模型更懂物理世界、更懂人类需求。在技术的早期,总有人试图寻找唯一正确的路线,希望通过一次性押注来穿越迷雾。但具身智能的复杂性正在提醒行业:真正的智能不是从一条路径长出来,而是从无数次试错、冲突与调和中被“雕刻”出来。模型不完美,数据不完整,架构不统一,这听上去像缺陷,却恰恰是具身智能最真实的生命力所在。
本文来自微信公众号“具身研习社”,作者:彭堃方,编辑:吕鑫燚,36氪经授权发布。















