具身智能的“ChatGPT时刻”何时到来?在近日举办的2025中关村论坛“未来人工智能先锋论坛”上,上海交通大学教授、穹彻智能联合创始人卢策吾,星动纪元创始人陈建宇,银河通用创始人兼CTO王鹤,乐聚机器人创始人、董事长冷晓琨,北京智源人工智能研究院院长王仲远围绕这一热点话题分别表达了自己的观点和预测。
卢策吾:我认为,具身智能的“ChatGPT时刻”不是一蹴而就的,它应该是通过突破一批又一批成熟的应用场景推动实现阶梯式上升的。当大家发现身边越来越多的应用场景使用了具身智能技术的时候,“ChatGPT时刻”很可能就会伴随一个更大的技术创新和机会而来。这个时间点我不好预测,但是我认为未来每1~2年具身智能就会实现阶梯式的进步,这是确定性比较高的。
目前来看,从我公司的发展角度,我认为物流PMP抓取放、食品加工等应用场景会实现具身智能应用的率先突破。
陈建宇:我觉得实现的时间点要看如何定义具身智能机器人的“ChatGPT时刻”,如果标准比较高,那么它突破性爆发的时间点就会比较远。如果要达到类比语言模型的“ChatGPT时刻”——这个Agent可以开放给每一个人用,大家都可以去问它任意的问题,Agent都能回答得不错,可以达到为用户带来惊喜的标准。此外,一个具身智能机器人放到某个家庭的某个场景里,用户要让它随意干活,这个机器人都可以完成得不错。
如果要实现上述功能,还是一个比较高的标准,大概要3年以上的时间。不过这并不妨碍我们近1~2年就在特定场景中应用具身智能机器人,因为语言模型的1.0和2.0已经可以在一些垂直场景中使用了。
王鹤:尽管现在人形机器人全面应用的呼声很高,但是我认为它发展到“ChatGPT时刻”还有很长的路要走。因为在具身智能和人形机器人产业中,人工智能和硬件是相互联系的,它们会轮流成为产业发展的瓶颈,需要协同发展共同进步。
目前在中关村论坛的场馆内,银河通用的轮式机器人已经可以给大家在货架上拿取物品。在这种无人零售的货架场景基本用不到腿,我们认为这种轮式机器人便宜、可靠、续航时间长,已经可以满足基本需求了。我们预计2026年人形机器人在智能货架场景的应用将全面实现突破,如果轮式人形机器人在这单一场景的出货量已经达到十万级别,那它算不算“ChatGPT时刻”?它虽然没有让每个人都用上人形机器人,但是对于24小时值守店来说有很高的价值。
当人形机器人走入家庭场景,就会对硬件提出更高的要求——成本高、噪声小、续航时间长,甚至还有更多想不到的需求——例如人形机器人应用在养老场景,需要抱起老人,那么钢材质的机械臂就不符合人们的预期了,需要进一步完善……从这个角度看,实现具身智能“ChatGPT时刻”就会在更遥远的时间点。
冷晓琨:我认为大语言模型的“ChatGPT时刻”在具身智能产业中大概无法复制。
因为具身智能是一个软件硬件相互耦合的产业,AI某个领域的最新Demo产生后,软件就会迎来一个爆发。但是具身智能机器人涉及硬件的部分,硬件产业的发展规律是无法跨越的——我认为具身智能机器人从实验室发展到产业化,至少要用3~5年的时间。等硬件真正实现产业化后,还要再将AI智能的部分耦合进硬件本体中不断调试,软硬件相互融合后,才能最终迎来大规模爆发。
我同时认为,具身智能机器人的爆发可能没有突然眼前一亮的时刻,而是一个润物细无声的过程——可能在5年或者10年后的某一天,人们会发现具身智能已经应用在社会各个场景之中了。
王仲远:我想从人工智能第三次浪潮的发展脉络来推测一下具身智能的发展时间。
2006年,由图灵奖获得者Geoffrey Hinton教授及其学生在Science杂志上发表的一篇重要论文引发深度学习的真正突破。但是直到2012年,Geoffrey Hinton团队在ImageNet大规模视觉识别挑战赛上获得冠军后,神经网络才受到产业界的广泛关注。以2012年为起点,随后深度学习在语音识别方面接连实现突破,Google先后推出Transformer模型架构、Bert预训练语言模型……直到2022年ChatGPT出现,成为人工智能的一个标志性里程碑。事实上,从2012年到2022年,深度学习1.0时代已经过了10年。
类比人工智能的发展脉络,具身智能现阶段不仅受限于AI模型的发展,还受限于硬件的发展程度。所以具身智能既存在“先有鸡先有蛋”的问题,也存在(软硬件)相互制约的问题,当然可能也存在相互促进的情况。
我认为,具身智能比较可能率先在受限的场景下先具备可用性、一定的智能以及一定的泛化程度。随着产业热度提升资源的汇集,具身智能也许会比人工智能的发展更快一点儿,例如相比人工智能发展到1.0时代历经10年,具身智能也许只用5年就能完成,但是不会特别快地实现。