聊天机器人之后,具身智能是通用人工智能的下一站吗?

频道:行业资讯 日期: 浏览:5

3月19日,《科创板日报》讯,编辑为宋子乔。有一个被制造出来的带着灵魂的机器人或者仿真人 ,在人类世界里磕磕绊绊地生活 ,于这个过程当中碰撞出爱情 ,碰撞出友情,碰撞出亲情等等。相信你对这样的剧本并不陌生 ,像匹诺曹 、剪刀手爱德华 、银翼杀手等作品都已经进行了精彩演绎。

就是:在现实世界里头,这类有着自主决策以及行动能力的机器人或者仿真人,属于通用AI的高级形态,也就是具身智能机器人,它呀,是一个有着物理实体的,能够跟真实世界产生多模态交互的,如同人类那般去感知还有理解环境的,并且借助自主学习来完成任务的智能体。

斯坦福大学里,身为计算机科学教授的李飞飞这样讲过,“具身所指并非身体自身,而是同环境相互交流,以及于环境里开展事情的整体需求与功能。”。

简略地讲,具身智能机器人能够领会人类话语,进而达成相应的任务。然而呢,理想状态下是很美好的,可实际的科学进展却停留在“听懂人类语言”这个层面,人们依旧高度依赖手写代码去达成对机器人的操控。

华盛顿大学教授、英伟达机器人研究高级主管 Dieter Fox 表明,有着一个关键目标存在于机器人研究里,那便是构建出在现实世界当中能够对人类起到帮助作用的机器人。然而,要将这一点达成,意味着它们得先实现接触人类,并且要去学习怎样与人类进行交互。

如何实现更加便利的人机交互?

GPT等大模型出现了,这为推翻树立在人类与人工智能面前的“巴别塔”提供了新思路,有不少研究者进行尝试,将多模态的大语言模型与机器人结合起来,通过联合训练图像、文字、具身数据,并且引入多模态输入,以此增强模型对现实中对象的理解,进而帮助机器人处理具身推理任务。

致力于为机器人贯注灵魂的谷歌、微软的 AI 团队,处于前列位置,尝试借助大模型达成此事。

在3月8日这一天,谷歌以及柏林工业大学的团队,极为重磅地推出了有史以来规模最大的视觉语言模型,也就是PaLM-E,其参数量高达5620亿,而GPT-3的参数量是1750亿。PaLM-E作为一种多模态具身视觉语言模型,也就是VLM,它不但能够理解图像,而且还能够理解、生成语言,能够执行各种各样复杂的机器人指令,并且无需重新进行训练。谷歌的研究人员打算去探索PaLM-E在现实世界场景当中的更多应用,比如家庭自动化或者工业机器人。他们怀有期望,期望PaLM-E可以引发更多的,针对多模态推理以及具身AI的研究。

具身智能机器人_多模态大语言模型_智能机器人编程语言

在近期的一项研究里头 微软团队致力于探索 怎么样把OpenA所研发的GPT 拓展至机器人领域 进而能够让我们 通过语言去实际直观地控制 像机械臂 无人机 家庭辅助机器人这类诸多平台 研究人员呈现了多个 GPT 用于解决机器人难题的示例 还有在操作 空中以及导航领域的复杂机器人部署。

存在着这样的情况,两者有着同样的一种期许,那就是人类去操作机器人的时候,并不需要通过学习那复杂的编程语言,也不需要去了解机器人系统的那些细节,在向机器人口述需求。或者比划需求之后,机器人就能够完成相应的任务。

今年2月之时,谷歌拉响了称作“红色代码”的警报,目的在于应对GPT所带来的威胁。它新推出的PaLM-E模型,与具身智能有着紧密相连的关系,完成机器人具身任务始终是该模型研究聚焦的重点,那么谷歌是不是有着押注具身机器人的意图,通过此来达成对GPT聊天机器人的超越呢?

我们对此无从知晓,然而,很明显,微软并未放松,同样对此抱有志向,其研究人员坚信,基于语言的机器人控制能为使机器人从科学实验室迈向日常用户的生活里奠定基础。

假若讲以chatGPT作为代表的大模型开启了通用AI崭新时代,那么多模态的人工智能体,具身的人工智能体,主动交互式的人工智能体必然是这一时代的必经之路。

可能你并非需要机灵聪慧的在线陪聊来向你传授量子纠缠究竟是什么,然而或许你会需要有一个如同在身旁的人为你去做饭,为你去洗碗,为你去递工具。

关键词:具身智能大模型