“人形机器人一定是非常重要的发展方向,只不过它的成熟周期比其他的构型要慢。人形机器人在两三年内进入千家万户是不可能的。”在第七届北京智源大会期间,北京智源人工智能研究院(以下简称“智源研究院”)院长王仲远在受《中国电子报》记者采访时表示,包括人形机器人在内的具身智能发展仍处于早期阶段,可类比大模型在GPT-3之前的技术探索期,模型技术路线还未收敛,原始创新的风险性高,需要社会和公众更多的耐心和理解。
多构型机器人将共同发展和存在
对于近期具身智能关注度和热度的提升,王仲远并不意外。除了有“具身智能”首次被写入政府工作报告这样的利好政策影响,也印证了AI正加速从数字世界走向物理世界。在去年的北京智源大会上,王仲远就从AI发展方向上给出预判:大语言模型将往多模态、特别是原生多模态世界模型的方向发展。他解释说,从本质上来讲,原生多模态世界模型是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。在宏观层面,AI进入物理世界后,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。
“具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。”王仲远强调。当前具身智能发展面临与AI大模型发展早期类似的挑战。比如,技术路线尚未形成共识,学界与产业界对核心技术路径存在分歧;再比如,在使用真实数据与仿真数据、强化学习、大小脑融合架构等的探索上,尚未形成统一的方法论。
本届大会期间智源研究院发布了包括跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0等系列模型在内的“悟界”系列大模型,能够适配各种形态的机器人本体。
在谈及为何布局“跨本体具身大脑”时,王仲远发表了对不同构型机器人本体的认识和预测。他认为,未来不同构型的机器人会共存,现阶段,大家关注的人形机器人的训练数据更易获取,但是研发更加复杂,因此商业化周期会更长。
(“天工”人形机器人在北京智源大会开幕式亮相)
王仲远表示,相比轮式单臂机器人、轮式双臂机器人、四足机器人等具身智能其他构型,人形机器人不仅能够充分使用和利用社会的基础设施,在训练模型方面也更有利于已有的各种数据进行训练。“从训练具身智能模型的角度来说,在训练四足机器人或者轮式机器人的模型时,相关数据的获取难度更大。”
“人形机器人一定是非常重要的发展方向,只不过它的成熟周期比其他的构型要慢。”王仲远希望媒体不要炒作人形机器人可能在两三年内进入千家万户。“这是不可能的。”王仲远呼吁,具身智能的发展需要遵从客观发展规律,希望大众对具身智能、人形机器人能够保持清醒冷静的认知。
相比通用人形机器人技术复杂度高,商业化周期更长,王仲远认为应该先突破小型专业机器人。在具身智能的发展路径上,智源有两个思路,一是数字智能物理化,通过大模型技术将数字世界的智能能力(如推理、规划)延伸至物理世界,推动机器人从 ‘单一功能’ 向 ‘通用智能’ 进化;二是低成本功能化,聚焦垂直场景,降低单台机器人成本并强化特定能力(如家庭清洁、工业分拣),通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能够走进千家万户。
训练模型的数据获取问题有待破解
“具身智能发展存在循环悖论——具身本体(机器人硬件)能力不足限制了真机数据的采集,数据稀缺导致模型能力弱,模型能力弱又导致机器人能力不足,应用少会影响真机数据的数量。”王仲远指出,如何破解训练模型的数据获取问题成为当前具身智能发展的关键。
王仲远认为,不同参与方会从不同的角度破解这一问题,比如供应链企业可以从降低硬件价格的方面突破,如果机器人价格下降至几千块,就会增加人们购买和使用的意愿,数据也就随之而来。还有企业选择生成仿真合成数据,利用大量的合成数据去训练具身智能模型。
“各种获取数据的路径都在探索中,目前真实数据和仿真数据并没有优劣之分。”王仲远表示,智源采用大模型的训练路线,通过互联网数据帮助机器人学习智能。在学习互联网的海量已有数据后,让模型具备一定的基础能力,再通过强化学习和少量真实世界的数据训练它的能力,不断突破具身智能的发展上限,这种方式和训练大语言大模型发展路线不谋而合。
(智源研究院数据采集训练场)
智源研究院也自建了数据采集训练场。记者在位于中关村鼎好大厦二层的北京智源人工智能研究院数据训练场看到,宇树人形机器人、夸父人形机器人、银河通用机器人、灵初智能等明星公司的机器人和灵巧手在各类搭建的场景中。据王仲远透露,这些机器人都是合作伙伴送到智源研究院供其收集数据的。
今年以来,国地共建人形机器人创新中心、国地共建具身智能机器人创新中心、智元机器人等机构和企业都在积极建设具身智能/人形机器人的数据训练场,采集真实数据用于具身智能模型训练。但是业界已有对真实数据价值的质疑。
在回答《中国电子报》记者提问时,王仲远表示,当前采集真实数据是有价值的,智源研究院采集真实数据主要用于做强化学习,因此所需要的数据量不多。同时,智源研究院在做跨本体的具身大脑,未来有可能形成一个突破硬件构型、数据类型的具身智能的融合模型,这些收集的数据就可以被真正有效地集成起来,确保采集的真机数据不会被浪费。
但是当前学术界对于具身智能小脑的数据收集和模型训练还在探索中。王仲远对《中国电子报》记者说,跨本体的具身大脑相对容易实现。他解释说,具身大脑是机器人感知和理解世界,在与世界交互中进行任务规划和指令拆解。但是只有大脑能够思考是不够的,还需要指挥硬件本体,这是更大的挑战,因为跨本体的小脑技能,目前还没有完全掌握技术路线。尽管已经有创业公司正在尝试采集各种硬件的数据用于模型训练,以求获得泛化的能力,但是其训练效果还没有得到行业广泛认同。
“如果要在物理世界能够真正实现‘跨本体、跨硬件’的小脑模型,还需要硬件在一轮一轮的产业迭代中淘汰和收敛。”王仲远认为具身智能在产业落地方面仍需久久为功,例如还需解决“感知-决策-行动”协同、多模态数据融合等基础共性问题。“具身智能的科研探索存在很多未知和不确定性,但这也是科学发展规律,希望大家给从事原始创新的机构更多的宽容和理解。”
王仲远简介:
2024年2月,王仲远接任北京智源人工智能研究院院长一职。
在加入北京智源人工智能研究院前,王仲远曾任快手技术副总裁,多媒体内容理解部负责人。
此前,王仲远还曾在微软亚洲研究院、Facebook、美团、脉脉等机构和科技企业工作。