本文的作者,来自南京大学,还来自香港大学,也来自中南大学,另外还来自地平线,同时来自中国科学院计算所,并且来自上海交通大学,又来自慕尼黑工业大学,还来自清华大学。
如今,跟着机器人跟人工智能技术的迅猛发展,“具身智能”(Embodied Intelligence)已然变成业界和学界一齐重视的关键课题。跟纯感知或者生成任务不一样,具身智能要求智能体在繁杂环境里自主感知、预测并且执行动作,才能够真正走向通用智能(AGI)。若是要达成这一极为宏大的目标,那么物理模拟器和世界模型的深度融合被视作是最具潜力的路径,前者借助高度可控的虚拟环境,为算法训练提供安全且高效的多场景试错土壤,后者模拟了从感知到决策的“脑内演算”过程。如此一来,智能体能够在做出动作以前,先于内部进行环境预测以及策略规划。
以下是由南京大学、香港大学等机构学者完成撰写的综述论文,即 A Survey: Learning Embodied Intelligence from Physical Simulators and World Models,它运用 25 张图、6 张表格以及超 400 篇参考文献,对两大技术怎样协同促使机器人从 “会做” 朝着 “会想” 方向演进的整体情况进行了系统梳理。
论文摘要
对通用人工智能即AGI的追求,致使具身智能成为机器人研究方面的前沿课题,具身智能这种智能所关注的是,那种能够于物理世界里进行感知、推理之后再去行动的智能体,而如若想要达成鲁棒的具身智能,那么不但需要拥有先进的感知以及控制能力,同时还必须具备把抽象认知扎根在现实交互当中的能力。
在这一进程当中,有着两项基础技术,一项是物理模拟器,另一项是世界模型,它们已然成为了关键的推动力量。物理模拟器,它为训练以及评估机器人智能体,提供了可控的、高保真度的环境,如此一来,复杂行为的开发便变得安全且高效。与之相比,世界模型为机器人赋予了对环境的内部表示能力,借此便能使其能够进行预测性规划,还能做出超越直接感知的自适应决策。
最近几年,借助物理模拟器跟世界模型融合来学习具身智能的研究进展,在本文中被进行了系统回顾。这两者于提升智能体自主性方面的互补作用,以及适应性与泛化能力方面的相互协作,我们予以了分析。外部模拟跟内部建模之间的协同关系,怎样推动模拟训练迈向真实部署的跨越,得到了探讨。通过把当前的研究成果和开放问题整合起来,为构建更强大且更具泛化能力的具身智能系统提供全面视角,是本文的目的。我们还持有一个持续更新的文献与开源项目仓库,其地址是:
这是一个网址链接,其具体内容为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。
主要贡献:
研究内容与结构一览
1、智能机器人五级能力分级(IR-L0 ~ IR-L4)
2、机器人核心技术回顾
3、物理模拟器横评

于主流模拟平台(Webots、Gazebo、MuJoCo、Isaac Gym/ Sim)而言,对其物理引擎精度方面进行回顾,对渲染质量开展回顾。还针对传感器组件支持情况予以回顾这一行为给予审视。
相互比较它于异构硬件里的表现情形,以及在大规模并行训练当中的表现状况,进而明确指出将来的优化导向。
4、世界模型架构与应用
代表性结构,它涵盖了从预测网络开始,接着有生成式模型,然后到一种多任务复合型的,带有“动态+奖励”特点的模型。
于自动驾驶里的轨迹预测方面,在关节机器人当中的仿真——现实闭环校准这样的领域有应用场景。
智能机器人分级标准
仿真器仿真能力对比
仿真器渲染能力对比
自动驾驶领域的世界模型代表性工作汇总
机器人领域的世界模型代表性工作汇总