对话智源王仲远:人形机器人硬件和模型都不成熟,才会有买家秀和卖家秀的落差

2025-06-06ASPCMS社区 - fjmyhfvclm

出品 |

作者 | 梁昌均

编辑 | 杨锦

作为中国最早布局大模型研发的科研机构,6月6日,北京智源研究院发布“悟界”系列大模型。

这包括原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0、全球首个脑科学多模态通用基础模型见微Brainμ以及全原子微观生命模型OpenComplex2。

“大模型技术还远没有到发展的尽头,提升瓶颈的解法有很多,包括强化学习,利用合成数据和多模态数据等。”在会前两小时的沟通会中,王仲远对等媒体表示。

从“悟道”到“悟界”,在王仲远看来是水到渠成的一件事,AI正加速从数字世界进入物理世界,“这一切构成的世界模型,是实现物理AGI的重要发展路径”。

“物理世界的多模态大模型,技术路线还没有收敛。”他表示,最合适多模态模型的技术线还没有真正找到,而智源也在做新的架构探索。

王仲远强调,智源会坚定去做高校做不到、企业不愿做的事情,尤其是全新的技术路线、技术方法和科学原理的探索。“当成功之后,我们会通过开源,或孵化的方式交给企业来做。”

作为AI走向物理世界的重要方面,如何提升机器人智能水平已成业界焦点。此次智源就推出了跨本体具身大小脑协作框架RoboOS2.0,以及具身大脑RoboBrain 2.0。

“现在的具身智能大模型,还处在很早期的GPT-1、GPT-2的阶段,技术路线还没有达成共识,离真正的产业大规模落地也还有很长距离。”

对于具身智能大模型的发展趋势,王仲远认为,未来5到10年,大小脑融合模型可能会成熟,但绝不是今天,主要原因在于数据受限。

aspcms.cn

目前,业内不同团队采取不同方式解决数据短缺问题,包括采集真实世界数据,或生成仿真数据进行模型训练。

“真实数据肯定很重要,但是不是足以训练出有价值的模型,现在有争议。”他提到,有企业是依靠仿真数据,而智源则采用了和大模型吻合的技术路线。

不过,他也坦诚地说,无法判断哪种路线会跑通,智源的探索也只是对技术路线的一种判断。

面对人形机器人热潮,王仲远认为,现在它的硬件也不成熟,模型也不成熟。“所以一方面有买家秀,买了机器人之后发现啥也干不了;一方面有卖家秀,感觉机器人无所不能。”

不过,他坚定长期看好双足人形机器人的发展方向。谈及车企对人形机器人的布局,王仲远表示,不同产业方参与是好事,但现在还处在早期,“具身智能的小组赛还没结束,远没到淘汰赛”。

对于具身智能机器人的应用前景,王仲远认为,首先会在特定场景,尤其是相对封闭的场景落地,如在工厂完成相对固定、重复、枯燥甚至危险的的任务,这会是具身智能第一波真正的红利。

以下是此次对话精编:

️一、AI应该走向物理世界,多模态技术路线还没有收敛

️媒体:从悟道到悟界,是否意味着大模型已经进入新的发展阶段?

王仲远:我们推出悟界大模型,是水到渠成。过往大模型发展,基本还处在数字世界,还有很多发展空间。这块交给产业界做就行,o4、o5,还是R1、R2,会继续发展,并能构建出更多应用。

我们坚定认为,一方面要不断通过强化学习去提升推理能力,更重要的是AI应该走向物理世界。

️媒体:智源提出原生多模态大模型,原生怎么理解?跟已有多模态大模型区别是什么?

王仲远:原生是指从一开始就把各种多模态的数据,包括文字、图像、声音,乃至脑信号等各种都放进去训练。各种模态数据越来越多,怎么从中找到最有用的,需要探索清楚这样的技术路线。

现在多模态太过宽泛,造成很大困惑,多模态好像很强了,怎么你们还在做?此多模态非彼多模态。我们的多模态大模型是为了推动AI从数字世界走向物理世界,物理世界的多模态现在还没完全解决,我们会坚定去做。

️媒体:智源做多模态还是Transformer 架构吗,还是有更多创新?

王仲远:我们往世界模型发展的时候,在做统一架构的模型,它不仅仅能理解静态的多模态数据,甚至还能够对时空进行理解,这是我们所追求的世界模型和多模态的能力。

Transformer依然是一个非常好的架构,能够去兼容不同模态,并能比较容易去scale up训练多的数据。我们也在探索不同架构,对基础架构做更新,但还处在非常早期的前沿探索。

️媒体:您认为多模态大模型处于什么阶段,能大规模落地吗?

王仲远:现在多模态技术路线还没有收敛,文生图、文生视频走的是Transformer+Diffusion的技术路线,比较确定,能力不断提升,在某些特定场景已落地。能否非常普世和广泛落地,需要一段时间。

️媒体:AI从数字世界走向物理世界最大的技术壁垒是什么?智源在这方面的考虑是什么?

王仲远:物理世界的多模态大模型,技术壁垒在多模态模型本身,因为技术路线还没有收敛。我们的理念是坚定去做高校做不到、企业不愿做的事情,尤其是全新的技术路线、技术方法和科学原理的探索。当成功之后,我们会通过开源,或孵化的方式交给企业来做,去做出产品。

️二、具身智能还未迎来GPT-3时刻,技术路线或与大模型类似

️媒体:现在具身大模型,如果类比AI大模型,处于哪个发展阶段?

王仲远:现在的具身智能大模型,还处在很早期的GPT-1、GPT-2的阶段。GPT-3之前,业内对大模型也没有共识。现在具身智能,是用仿真数据,还是真实数据,是大小脑融合,还是协作,都没有共识,离真正的产业大规模落地也还有很长距离。

️媒体:智源所做的跨本体的具身大脑难度在哪?现在行业有哪些探索?

王仲远:大脑跨本体相对容易,其最重要的是感知理解世界,跟世界交互,然后去做规划,指令拆解。跨本体的小脑,坦白来讲我们还没有完全将技术路径跑通。

有些创业公司,把不同硬件采集下来的数据应用在模型的训练上,希望能够去学到更加泛化的能力,目前看起来有一定效果,但还没有成为行业广泛共识。

️媒体:现在很多人认为机器人大小脑会融合,但也有很多人说不应该融合,您怎么看?

王仲远:融合的统一模型是我们所追求的,可能5到10年,大小脑融合模型有可能成熟,但绝不是今天。原因就是数据受限,现在具身智能的数据量不足以支持大小脑模型的训练。

我们认为具身智能或机器人2.0时代,最重要的就是突破专有任务,达到一定的泛化性,具备跨领域的能力,这跟AI第三次浪潮中深度学习的发展路径相似。现在很多所谓的VLA模型,不具备泛化性,这需要时间的沉淀。

️媒体:您提到泛化能力,但现在数据非常稀缺,这个问题怎么解决?

王仲远:硬件公司最好还要降低成本。如果机器人是几百块钱,买的可能性就大,数据采集量,包括模型提升速度也会大幅提升。

真实世界的数据肯定很重要,但是不是足以训练出一个有价值的模型,现在有争议。我们孵化的银河通用,王鹤老师的理念是用仿真数据。

智源认为,从已有的海量数据学习,再通过少量的真实世界数据去强化学习,有可能突破具身智能。这跟大模型发展的技术路线吻合,即具身智能或物理世界的AGI可能会是类似的技术路线。

️媒体:仿真数据和真实数据,有无优劣之分?采集真实数据成本高,费时费力,有意义吗?

王仲远:这没有明确说法,现阶段没有收敛或没有共识,智源所走的技术路线也只是我们对技术路线的一种可能判断。

我们认为采集真实数据有价值,更多做强化学习的使用,数据量不需要那么多。智源做跨本体的具身大脑,将来可能是融合模型,希望能够突破硬件构型,包括数据类型,使得这些数据真正有效集成起来,这样采集的数据才不会被浪费。

️媒体:具身智能可以复制自动驾驶的数据积累模式或经验吗?

王仲远:具身智能在数据采集路径上,很难简单复制自动驾驶,而且相比自动驾驶,具身智能机器人的操作空间、涵盖范围和复杂性更大。

️三、人形机器人成熟周期会更慢,行业小组赛还没结束

️媒体:张钹院士说人形机器人走的是错误的道路,您看好人形机器人吗?

王仲远:长期来看,人形机器人是一个很好的发展方向,机器人会成为人类社会的一个基础设施,双足人形机器人,长远看会更容易融入。

这不代表其它构型就没有用武之地,各种构型机器人,未来都会共存。但人形机器人成熟周期会比其它构型机器人慢。现在人形机器人才刚刚会走会跑,能不能走得稳、跑得稳,还在努力中。

️媒体:此前王兴兴说现在人形机器人缺少的不是控制运动能力,而是智力,您怎么看?

王仲远:我们认为(人形机器人)硬件也不成熟,模型也不成熟。所以大家会看到,一方面有买家秀,买了机器人之后发现啥也干不了;一方面有卖家秀,感觉机器人无所不能。

在具身智能发展过程中,我们期待探索出一条独特的路径。这有两种可能性,一种是将数字世界的智能能力带出数字世界,迈向物理世界;另一种就是让机器人做得足够便宜,这样很多小型机器人就会能走进千家万户,但大型的人形机器人,周期一定要更长。

️媒体:很多车企也在进军人形机器人,车企在未来的竞争格局里面会占据什么位置?

王仲远:车企有很强的制造能力和供应链优势,也有很好的落地场景。但这种优势能不能变成最终的竞争优势,能否帮他们在竞争中取得成功,不一定。具身智能和自动驾驶还是有很大区别,同时,现在还处在早期,具身智能的小组赛还没结束,远没到淘汰赛。

️媒体:未来三年,具身智能机器人最可能在哪个领域规模化落地?

王仲远:首先会在特定场景里落地,尤其是相对封闭的场景,比如工厂环境,完成相对固定、重复、枯燥甚至危险的的任务,这会是最快的落地场景。

这些场景只需满足几个条件,第一硬件成本能够支撑在它的生命周期里ROI大于1,并且这种场景是人类不愿意干的,不用担心会替代掉人类工作,这会是具身智能第一波真正的红利。

全部评论