聊天机器人之后，具身智能是通用人工智能的下一站吗？

频道：行业资讯日期：2026-03-15 16:05:23 浏览：5

3月19日，《科创板日报》讯，编辑为宋子乔。有一个被制造出来的带着灵魂的机器人或者仿真人，在人类世界里磕磕绊绊地生活，于这个过程当中碰撞出爱情，碰撞出友情，碰撞出亲情等等。相信你对这样的剧本并不陌生，像匹诺曹、剪刀手爱德华、银翼杀手等作品都已经进行了精彩演绎。

就是：在现实世界里头，这类有着自主决策以及行动能力的机器人或者仿真人，属于通用AI的高级形态，也就是具身智能机器人，它呀，是一个有着物理实体的，能够跟真实世界产生多模态交互的，如同人类那般去感知还有理解环境的，并且借助自主学习来完成任务的智能体。

斯坦福大学里，身为计算机科学教授的李飞飞这样讲过，“具身所指并非身体自身，而是同环境相互交流，以及于环境里开展事情的整体需求与功能。”。

简略地讲，具身智能机器人能够领会人类话语，进而达成相应的任务。然而呢，理想状态下是很美好的，可实际的科学进展却停留在“听懂人类语言”这个层面，人们依旧高度依赖手写代码去达成对机器人的操控。

华盛顿大学教授、英伟达机器人研究高级主管 Dieter Fox 表明，有着一个关键目标存在于机器人研究里，那便是构建出在现实世界当中能够对人类起到帮助作用的机器人。然而，要将这一点达成，意味着它们得先实现接触人类，并且要去学习怎样与人类进行交互。

如何实现更加便利的人机交互？

GPT等大模型出现了，这为推翻树立在人类与人工智能面前的“巴别塔”提供了新思路，有不少研究者进行尝试，将多模态的大语言模型与机器人结合起来，通过联合训练图像、文字、具身数据，并且引入多模态输入，以此增强模型对现实中对象的理解，进而帮助机器人处理具身推理任务。

致力于为机器人贯注灵魂的谷歌、微软的 AI 团队，处于前列位置，尝试借助大模型达成此事。

在3月8日这一天，谷歌以及柏林工业大学的团队，极为重磅地推出了有史以来规模最大的视觉语言模型，也就是PaLM-E，其参数量高达5620亿，而GPT-3的参数量是1750亿。PaLM-E作为一种多模态具身视觉语言模型，也就是VLM，它不但能够理解图像，而且还能够理解、生成语言，能够执行各种各样复杂的机器人指令，并且无需重新进行训练。谷歌的研究人员打算去探索PaLM-E在现实世界场景当中的更多应用，比如家庭自动化或者工业机器人。他们怀有期望，期望PaLM-E可以引发更多的，针对多模态推理以及具身AI的研究。

具身智能机器人_多模态大语言模型_智能机器人编程语言