香港中文大学人形机器人参赛连连翻车,做家务更是困难重重

频道:行业资讯 日期: 浏览:26

翻车是真的,希望也是真的。

在香港中文大学那里,有一处位于山间的小道,小道旁有流水潺潺的小桥,树的光影呈现出斑斑驳驳的样子,青苔附着在那陡峭且连绵不断的石梯之上。

无人机视野下500 米的定向越野路线。

一辆人形机械装置越过了有着三十度倾斜角度的小桥,踏上了一段石头铺成的道路,迈进了两段由台阶组成的路段。费尽周折才抵达了一个呈现九十度弯曲的转角处,其重心突然出现偏移,以面部朝上的姿态倒了下去。

全程 500 米的定向越野,它只能走完开头。

到了90度分叉路口,就躺平罢工。

第二天,它又出现在大学的岭南体育场,尝试户外分拣垃圾。

那块草地秃噜了,当中的每一步,都好似踩进了人生的陷阱,在还没法碰到桌上所放置的垃圾之际,就一下子扑通倒地了。

于第五届 ATEC 科技精英赛之处,此乃全球首个全自主、全真实户外场景的机器人竞技场,类似画面持续不断地上演着。机器人离开了遥控器,并且走到了户外的状况下,它还可不可以工作?

实际上,跳舞,进行空翻,呈奉咖啡,这般所谓的「展台神迹」向来都并非是真实的水准。一旦脱离温室以及遥控器,一块光秃的草地,一只平常的水壶便能够瞬间将它们「击败」 。

一乘尼奥,别说叫它亲自去洗碗,就连把那些干干净净的锅、碗、瓢、盆呀放进能够自动清洗餐具的洗碗机里头,都相当困难。

之前的两三年时间里,大众普遍过高估计了人形机器人的通用能力,好多人叫嚷着,它们会走入家庭,去承担家务,“这件事情绝对是被高估的”,ATEC 2025专家委员会主席、香港工程院院士刘云辉觉得,“五年之内达成都是挺困难的” 。

然而,“丢掉遥控器”并非是未来能够加分的项目内容,反而是具身智能能不能切实实现着落的必然选择项。

一些参赛选手这么讲,针对机器人而言,其所应施展效用之处,乃是那种人类自身无法完成或者不太适宜去完成的事务范畴,于这类特定场景当中,不存在任何人能够借助遥控器来替机器人进行判定的情况,句号。

必须将遥控器丢弃,这并非特别困难。刘云辉表明,从技术的路径方面而言,感知与决策是重点所在。机器人可不可以准确地看见周遭世界?可不可以自行决定接下来要如何去做?

刘云辉院士(左)在观看自主浇花的比赛。

感知之困

人类耗费5.4亿年进化出感知智能,目的是理解三维世界并与之展开沟通、互动,当下,这种感知智能正给具身智能带去困扰。处于岭南体育场时,阳光成为致使机器人频繁翻车的罪魁祸首。

七点的清晨,场地被阴影所笼罩,一小时之后,光照显著增强,中午时分,阳光直射,人类选手连电脑屏幕都无法看清 。

深度相机包括如RealSense这类的,其主动光结构在强光的状况下几乎会失效,透明形态的矿泉水瓶在机器人视野里宛如处于隐身状态,机械臂依旧如常伸展过去,结果是直接将水瓶撞落掉了。

终于抓住啦。

需进行的浇花任务,同样是面临着诸多困难,重重叠叠的那种。黄色的水壶,被太阳晒得呈现出发白的样子,白色的桌面,又有着强烈的反光情况,这就致使点云形成严重的散射现象,进而造成抓取动作一次次地失败。并且在 3D 识别这个环节当中,那 6 朵形状并不规则的白色假花,本身就属于高难度的目标对象。原本规划着要自主去完成任务的队伍,没办法之下只能选择进行遥操,以此来延续任务的推进。

选手遥操人形机器人拿水壶。

去进行吊桥穿越这件事,同样是没法让人省心的,视觉定位遭遇阳光干扰而出现偏差,致使机器人朝着吊桥边沿一步又一步地趋近,最终踩空然后跌落下去,。

机器人走偏后,踩空,掉下桥。

如今,机器人的移动令人惊叹,其视觉令人惊叹,其导航也令人惊叹,然而,其操作能力却依然相对原始。英国皇家工程院院士Darwin Caldwell说,他是意大利技术研究院(IIT)创始人,也是IEEE会士。

为什么操作这般困难呢?原因在于,移动的底层存在难题,其本质是「站稳 + 迈步」 。所涉及的物理变量相对固定,并且能够在仿真里完整构建,大规模强化学习所以收敛速度很快,进展十分迅速。

操作任务涉及的变量,却极其复杂——

先是透明与反光,接着是材质差异,然后是颜色变化,再是光照波动,就算只是抓香蕉以及抓矿泉水瓶,对于机器人而言,那都是截然不同的任务。

更为关键之处在于,现今的机器人缺乏实际的物理信息,其触觉反馈接近于零。然而在人类的操作行为当中,触觉与视觉同样具备重要性。

这同样是为什么,ATEC 在垃圾分拣任务里挑选玩具香蕉,它质地软,能够发生形变,然而却不会被机器人捏坏,保持完整。

即便如此,可是有两组四足机器人团队仿佛是拥有无敌技能,完全依靠自己搞定了垃圾分拣以及吊桥穿越,成功通关。

在分拣任务期间,浙江大学wongtsai赛队并未借助大模型,而是回归到「传统视觉 + 几何」这条老牌路径,并且将其雕琢至极致 。

存在这样一种情况,在吊桥穿越尚未开始之前,他们便已于模拟器当中,将真实场景进行了高度还原,具体是怎样做的呢?其一不仅对吊桥的结构予以了复刻,其二还针对RealSense在户外有可能会碰到的各种各样的噪声进行了模拟,诸如视差误差、散斑点云以及纹理缺失等等,并且sim2real的部署过程十分顺利。

智能决策之难:20 岁身体,3 岁智商

不少机器人从业者都说过类似扎心的真话。

于开放环境当中,使得机器人自行从桌上拿取一瓶水都是颇具难度。哪怕是稍微复杂那么一点儿的操作,全都依赖遥操或者同构臂才行哟。

可我们打算外包出去的那些家务,哪一项不是长链任务跟工具使用结成的组合呢?做早餐并非仅仅是煎个鸡蛋而已呀,而是有着一整套流程的:要先去找锅,接着把火打开,随后准备好材料,再将材料放入锅中,然后装盘,最后还得去洗碗……

对于要让机器人去做这件事而言,它必然得拥有一个具备规划能力、会做出决策、拥有记忆功能的大脑。然而,多数当前的机器人仅仅有着“20岁的身体,3岁的智商”。

ATEC2025赛事组的专家里,负责松灵机器人具身智能部门的谢志强,在直播当中举了一个例子,这个例子是扫地机,扫地机能自主进行移动,然而一旦出现被卡住的情况,就只会等待人类前来救援 。

这同样是致使自主浇花令一连串机器人陷入困境的缘由所在,毕竟任务链条着实过于冗长了,——。

人形机器人户外挑战_ATEC科技精英赛机器人测试_智能机器人的例子

寻得水壶,而后拿起,接着开启水龙头,随后承接水流,再将龙头关闭,进而寻觅花盆,之后用以浇花,最后放置回原本所在之处。

与单步抓取、视觉分类相比较而言,它所考验的是机器人是不是真的具备长程任务的能力。其结果是,不存在能够做到全自主的机器人。

浙江大学生 wongtsai 赛队告知我们,在实验室里存在着还能够进行泛化的 VLA(视觉 - 语言 - 动作)模型,然而呢,一旦将其放置到真实场景当中,它就无法起效了。

大模型具备听懂图像与指令的能力,然而却没办法真正去理解物理世界的那些细节,比如说抓水壶以及浇花,其精度是完全达不到要求的,所以呢,他们作出了选择,选择了遥操。

浙江大学wongtsai赛队,借助遥操这种方式,达成了自主浇花的占据大比例的子任务。

有队伍进行混合模式的尝试,先是借助遥控器将机器人移动到最佳位置,而后让机械臂自行完成抓壶、接水以及浇花的操作。

退一步来论,哪怕是这样,只要流程里的某一个环节发生了异常状况,那么那机器人的脑子就没办法灵活运转了。

例如,手拿水壶打开水龙头,万一卡住,就会一直停在那里。

香蕉,作为垃圾分拣里的道具,在暴晒之后,会出现发生不可逆形变的情况,有的机器人,明明已经夹住了它,却仍旧坚持判定为失败。

各出奇招,用水壶撞开水龙头。

在定向越野中成绩曾一度处于领先位置的机器人,出现了失控状况,在该户外竞技运动比赛的最后一段路程里,它反复地掉进同一处排水沟,并且没办法自行调整自身状态,最终只能切换回远程操控模式 。

最有意思的是,吊桥穿越。

那机器人先是跨越了5cm的缝隙,接着又跨越了10cm的缝隙,最终却迎面碰上了一道50cm的间隙。

刘云辉解释说,机器人要自己做思考,要自己做决策,比如拿起板来填充然后改变环境,进而适应自己的运动,这不再是简单的行走,而是包含了环境评估的高级智能行为,是包含了工具使用的高级智能行为,是包含了任务规划的高级智能行为。

结果,四足机器人根本不考虑这些复杂操作,直接跳过去。

供双足行走的机器人,起初凭借物理外挂艰难地挨过前面两条较小的缝隙。待发展至五十厘米宽的大间隙处时,极有可能将拉绳碰落,而后在原地静候救援。

各种物理外挂登场

这台双足机器人成功拿住了绳子,移动木板,迈过去了。

豪华的大模型,毛坯的硬件

跟当下的主流走向相同,今年参与竞赛的队伍的系统架构,多数运用「大模型外加小模型」协同的模式:

高层语义理解、任务拆解以及策略规划由大模型着手负责,前端感知、运动控制等即时执行则是小模型所面向的,两者依靠管线化以及反馈回路达成闭环效果 。

但随之而来的现实问题是——

一台机器人身上,同时挂着CPU,同时挂着GPU,还同时挂着NPU等一堆异构算力,要怎么把它们,挤进一块体积足够小的板子里,还要把它们,挤进一块功耗足够低的板子里,并且还能使它们高效协同呢 ?

赛队wongtsai所属的浙江大学杰出而且出色地完成了三类任务,这三类任务之中包含定向越野任务呢,并且完成方式全程全自主,其端侧装置配备奢华贵重堪称豪华。

三台小电脑被他们给机器人挂上了,一台Intel NUC用作主控,两块英伟达算力板(大小不同各一块)运行不同规模的神经网络,像是借助Segment Anything来进行图像分割 。

可是,若要对更为大容量的模型进行推理支撑,那么算力明显是不足够的,存在延迟程度较高的现象,其所消耗的电量也是比较大的。

浙江大学wongtsai赛队,接受了采访,在谈到15万美金奖金时长,队长仅仅用一句话,便进行了总结,那就是先去偿还债务,补贴昂贵设备所需要的成本 。

队伍当中的成员也表示,若要切实朝向走向现实世界的方向,那么机器人必然得具备能够顺着形势而行动的自适应能力。在进行定向越野期间,脚不会与石头以硬碰硬的方式接触;当进行浇花操作时,身体会按照水壶重量产生的变化,适时地对重心作出调整。

这一切均對整机的力控能力以及自适应控制构成考验。并且呢,要于复杂场景里开展这种具备高质量的感知与 contro了,当下的算力以及本体均存在一定差距。 。

指出的是,在ATEC2025赛事组中,身为专家的卡里法大学自主机器人系统教授,同时也是机器人感知研究负责人的Jorge Manuel Miranda Dias表明,存在着一个巨大的问题,那便是漂亮 Algorithm 没办法内在运行于机器人里。而要使得机器人身体能够承受其大脑智能,关键之处在于低功耗、高性能的专用芯片以及轻量化模型。

翻车是真的,希望也是真的

有一件有趣的事,在比赛之前,有不少人觉得机器人要完全独立自主地跑完定向越野,几乎是不太可能的,ATEC2025赛事组的专家,香港中文大学机械与自动化工程学系的教授兼系主任,新加坡工程院院士陈本美,甚至还放出了“豪言”,要是真的有人能够做到,那么香港的餐厅任由对方去挑选,他会请客。

结果比赛第一天,就有两台四足机器人完成了全自主定向越野。

具备500米级自然地形导航能力,信号存在较差状况,有多条狭窄的梯子呀,还有诸多弯道呢,并且存在强光扰动等情况,在成熟RL控制器进行支撑的情形下,仅仅依靠自身的传感器去构建地图,去完成定位,去稳定地前行 。

刘云辉持有这样的看法,即机器人若要切实进入人类生活的世界,那就必须同时拥有三种能力,分别是:能够行走,能够进行操作,能够对环境加以改造。在过去的十年时间里,四足机器人于“能够行走”这个维度已然存在了质的改变。可是,“能够进行操作、能够对环境加以改造”依旧存有极大的研究范畴。

跟四足机器人比起来,双足机器人以及人形机器人还有更为漫长的路程要去行走,双足形态的重心是比较高的,其支撑面是比较小的,平衡方面、力控方面、地形适应方面都要比四足复杂艰难得多,甚至于在行走的过程当中去完成操作更是难上加难。

它们所需要面对的,是这样一种技术坡度,它更为陡峭,然而却又更加贴近未来的生活场景 。

双足、人形机器人面临的挑战,比四足机器人多得多。

车子翻倒这事儿挺平常的,车子翻倒也可以算作是一种向前发展取得进展。刘云辉讲道。要是不存在失败这种情况,那么也就始终不会有获取成功的可能性。

正因如此这般缘故,ATEC组委才致使机器人直面真实世界范畴之内的扰动情况。所设计的每一道题目,并非追求使其完成得呈现看似美观的状态,而是针对这三大能力展开系统层级的验收举措,促使它于碰撞期间暴露出真正潜藏的弱点来。

毕竟,只有真问题,才能让行业知道下一步要突破什么。

机器智能与物理世界深度融合,这注定是AGI的未来,蚂蚁集团技术战略部负责人作为赛事发起单位之一表示,AI必须从数据认知走向环境交互以及行动执行,大家正期待下一次具有真正意义的技术突破 。