深智(北京)科技有限公司创始人陈凯:用人类“第一人称视角”重构具身智能“大脑”

频道:行业资讯 日期: 浏览:15

行业所属性质为大模型、具身智能,其估值以及融资轮次情况是尚未公开进行披露的,核心具备的竞争力则是人类自有的 “第一视角” 数据构成的,未来所能涉及到的关键词项目是通用性、物理智能 。

就总分是10分的情况而言,对于2025年中国具身智能所具备的“通用性”,到底能够打几分呢 ?,“往不好听的方面来讲,实际上我认为应该是零分 。”陈凯几乎没有丝毫犹豫,便给出了这样的回答 。“会有如此夸张吗 ?”《每日经济新闻》的记者进行追问 。陈凯沉思了短短几秒之后补充说道 :“从客观层面来看,当前整体水平大概在1分左右 。”。

2025年,陈凯身为一名“走出实验室”的科学家,有着最新身份,那便是深度机智(北京)科技有限公司创始人,这家公司简称为深度机智。在此之前,其在人工智能领域深入钻研了15年,于国际上率先把人工智能模型分布式训练规模扩充到百卡以上,以此相关成果在Nature子刊、TASLP、NeurIPS、ICLR等国际顶级会议和期刊上发表了。

身兼北京中关村学院导师的陈凯,还是中关村人工智能研究院研究员,并且是具身智能方向负责人,肩负着博士生培养职责,他与公司CEO都出自中科大少年班,身上有着新一代原生AI创业者的天然淳朴以及学术气质,在这种专业沉淀之下,他的回答显然绝非戏谑之言 。

由于察觉到具身智能通用性方面存在的难题,陈凯所开展的创业活动着重借助人类“第一视角”数据来提高基座模型的物理智能水准,也就是说,他们打算打造具身智能的“大脑”,可是,当陈凯团队首次提出“从人类第一视角视频数据构建通用具身智能基座模型”这一想法时,迎接他们的并非是掌声,而是质疑。

在2026年开始的时候,AI赛道又一次迎来了资本以及技术的双重爆发。陈凯团队到底能不能依靠“第一视角”解开物理智能的通用性密码呢?身为创业公司又会怎样去接受市场的考验呢?针对这些,陈凯最近接受了《每日经济新闻》“对话未来商业”栏目记者的专访。

从不被认可到巨头验证:特斯拉与Figure的“神同步”

回忆起当初状况令陈凯印象深刻,当时他与一些研讨者、相关投资者探讨时,他们实际上对这条路径全都不认同,而他的创业想法产生于2024年年底,那时国内大量公司依然聚焦于机器人“本体”研发,可外界能感知的现象级事件却在2025年“春晚”爆发,宇树科技的通用人形机器人H1以“扭秧歌”的形式令人惊艳地亮相,从而掀起了具身智能热潮。

实际上,切实起到作用的关键所在是“大脑”的能力,在那个时候,美国已经有多家“大脑”公司兴起,然而国内却相对处于薄弱状态。也就是在那一个时刻,陈凯察觉到具身智能领域存有极大的机会以及挑战。

于2025年5月注册的深度机智,有一支平均年龄30岁的创业团队,其中博士占比超过60%,他们选取了一条和OpenAI、DeepMind(公司名)完全不一样的技术路径,即不依靠昂贵的动作捕捉设备,不使用仿真环境进行预训练,而是直接采集人类身处真实场景里的“第一视角”数据。

陈凯坦言,当时的投资人觉得,那种没精准去标注、也没精准去捕捉,缺少感知力以及触觉的数据,没多大价值。这种质疑也是源自传统AI研究的思维定式,强化学习依靠仿真环境,计算机视觉要精准标注,具身智能领域普遍运用动作捕捉设备采集数据 。

陈凯坚定地相信,人类“第一视角”数据当中蕴含着人所看到的整个物理世界的深层规律,这些规律没法用文字精确地描述,并且也没有办法运用规则将其穷尽,不过它的数据形式就处于那里,需要将这样的数据压缩到大模型里,使得大模型能够获得对物理世界的理解。

在2025年5月出现了转折点,按照陈凯自己讲述,那时特斯拉忽然公布了一条技术路线,这技术路线会慢慢削减遥操数据(通常是指经由远程操控形式产生、传输或者处理的数据)以及动捕数据的运用,会大量地朝着从人类的“第一视角”视频学习转变。

几个月之后,到了2025年9月时,在美国估值最高的具身智能初创公司Figure AI发布了一个视频,视频内容是全尺寸的人形机器人进行快递分拣还有把衣服放进洗衣机,该视频的流畅程度致使陈凯作出推断,推断他们应当是直接采用了人的数据来进行学习。“因为那种细微的动作表现实在太像人了。”陈凯直接表明,Figure AI在官宣融资的同一时间,还宣布与一家商业地产公司展开合作,目的就是要进入真实的场景当中采集人的数据。

带来更直接验证的是同为AI机器人初创公司的Generalist AI,该公司于2025年10月发布GEN-0具身智能模型,而此模型是依靠超过27万小时真实物理世界操作数据进行预训练方才得来,它初步验证了Scaling Law这一东西,也就是那个在大模型领域属于经验公式的规模化法则,并且这一情况曾一度被业界解读成智能机器人迎来了“GPT时刻” 。

在陈凯看来,Generalist AI的数据不是真人亲手直接操作的“第一视角”,不过呢,是有人操控“假爪”在真实世界里进行采集的。这和遥操作、动作捕捉以及仿真全然不一样,它强调了验证真实物理世界数据的重要性 。

2025年12月,美国有一家具身智能领域备受瞩目的创业公司Physical Intelligence,公布了一项相关研究得出的结论,经大量机器人数据模型与人员数据相结合,能够极大程度提升模型的通用性,此消息再度令陈凯产生振奋之感。

“Physical Intelligence公司所得出的结论实际上是对我们所提出假设的一种验证。”陈凯如此进行分析,Physical Intelligence阐述了人类于真实场景之中的交互数据,它乃是连通语言模型以及物理智能的关键所在,对人类“第一视角”多模态数据的有效性予以了验证。这意味着,看着人干活,机器人确实能够学会。该结论与陈凯团队的研究发现恰好相符。

从“0到1”转变:“百万小时”数据量级攻坚

智能机器人图片_具身智能第一视角数据_通用性物理智能

虽说陈凯的技术路线,于创业起始阶段未获认可,然而,随时间慢慢推进,这条技术路线始终不断被验证,进而成为陈凯当下最为重要的“创业心流”。

从大众的角度去看,在2025年的时候,中国的具身智能发展速度极为迅速,不管是哪一种情况,是在那令人感到酷炫的演唱会上有着跳舞的表演,又或者是在各大AI展馆里进行叠衣服之类的炫技行为,那些借助了大量人造数据训练而得出的机器人运动轨迹,在陈凯的观点里依旧是属于“死记硬背”的类型,一旦环境发生改变,就很有可能会直接失效。

通过“第一视角”的人类数据,能够极大程度地提高模型对物理世界的理解,从而提升模型的物理智能水平,而且还能提高机器人执行任务的成功率。

据悉,深度机智于数据源头着手优化,直接采集人类“第一视角”下的手部操作数据,这类数据天然涵盖人类在真实环境里的操作直觉,像握取不同材质物品时的力度把控以及物品滑落之际的即时调整,适配机器人“感知 - 动作”映射需求 ,规避了机械操作数据与人类交互习惯的适配成本 。

陈凯告知《每日经济新闻》的记者,公司当下每天的数据采集规模已然超过了1000小时,然而每沉淀1万小时的数据,常常需要2至3周,这是由于中间还存在一些数据清洗的工作。依据公司的规划,在2026年上半年要向着“百万小时”的数据量级发起冲刺。

陈凯表示,“百万小时”意味着什么呢?意味着我们能够基于人类数据,切实验证具身智能是否存在Scaling Law(规模定律) 。他还说,尽管对于Scaling Law已经颇具信心,可当下要做的是把那条正确的曲线切实绘制出来,为未来算力、数据以及模型的规模投入提供明确的指引 。并且,如果百万小时数据获得验证,具身智能的通用性便也能够随之达到5至6分(总分10分) 。

喻体为“练内功”的过程是做基座模型、提升物理智能,将此内功练到完善,之后机器人便能够“开窍”。陈凯进行了进一步的比喻阐述 。

黄蓉的情郎郭靖,在武侠小说里练功起始阶段,拜“江南七怪”为师,这七位师傅各带着独自招式传授于他,致使他学到的招式繁杂众多,难深入领悟参透某一项功夫。最终是有个说道长身份的马钰,教他先练气,再打坐,先将内功练好。而后,那些招数便自然而然被他学会了。可陈凯补充谈道,然而他感觉为数不菲的人其实领会不了这个逻辑 。

要是将“内功”划分成10个等级,以“第一视角”进行数据采集,那“百万小时”的规模又能够练到哪一级呢?“3、4级吧。”陈凯坦白说道没错,要是想练到10级,那就需要1000万小时以上的数据规模才行。而且,仅仅依靠数据远远不够,因为对于数据驱动模型训练来讲,见识多了才能够知识面广。“大语言模型显然就是通过‘读万卷书’才获得了那般强大的能力。如今的具身智能想要做好,那就得‘行万里路’。”。

技术路径收敛:加速、规模与希望并存

说到当下的技术差别,陈凯直接表明,时间过去一年了,中国跟美国于这一范畴的差距并非在变少却是在变大,“一个关键理由便是具身智能的技术路线未趋同,好多公司实施了相对保守的计策,没使劲开展研发,所以未取得突破也就在预计范围之内。”陈凯讲道。

然而,作为一名创业者,陈凯当下再次与投资人接触之际,明显察觉到他们对于这条技术路径的认知,已然清晰了不少,这是由于投资人的知识迭代速率十分迅速,而且他们的学习能力相当之强悍。

陈凯这样讲,市场里边的资金数量是足以去支撑那个(具身智能“大脑”)赛道进行发展。而且核心要点并非完全盲目地去“烧钱”,只是得要在正确的路径之上烧足够多的钱。

谈论到2026年的行业发展情形,陈凯持有这样的看法,大家将会变得愈发乐观起来,这是由于技术路径正处在收敛的状态,起码在数据路线方面基本上能够达成共识了。他同样坚信,不管是国家层面,还是资本范畴,投入都将会进一步加大力度,进而整个行业都会实现快速进步。

关于届时,我内心深处最为期望目睹的情形是,中美二者所存在的差距能够持续呈现出缩小这种状态达成,甚至存在着实现反超越过往水平这种可能性。陈凯予以指出,在眼下这个阶段,中国于人类“第一视角”相关数据采集方面所产生的成本,比美国要低廉许多,这属于中国进行创业之时所具备的优势所在,并且对比看待远方操作、动作捕捉情形而言,“第一视角”数据采集所产生的成本同样是更低的状况,不管是从数据具有的多样化角度,还是数据所形成的规模角度,又或者是在路径方面,均展现出更为突出的优势。

倘若针对2026年具身智能的发展去提炼关键词,陈凯觉得,第一个关键词是“加速”,整个相关行业的进步将会加快速度,第二个关键词是“规模”,涵盖数据以及模型规模的扩充,而且规模定律(Scaling Law)有可能会得以验证。

陈凯说,第三个关键词我说觉得是“希望”吧,这个领域最初的时候大家确实是有着非常多的争议呢,许多投资人也都比较犹豫迟疑,一些人在下场之前可能也会有着一些恐惧害怕,但是现在整个行业的发展使我们看到了非常大的希望 。

注意到的是,《每日经济新闻》的记者,在2026年,这条曾经被冷落的赛道上,已然聚集起躬身入局的“陈凯们”,他们坚信,物理智能的突破,最后会通向智能跟实体交融的深远未来。