开栏的话:2025年是“十四五”规划收官之年,也是为“十五五”良好开局打牢基础的关键之年。各行各业正在以更加强大的前进动力、更加昂扬的奋斗精神、更加坚定的必胜信念,奋力谱写中国式现代化新篇章。即日起,本报开设“新春走基层”专栏,让行走在基层一线的记者们,带您一同探寻中国式现代化的生动实践,见证时代发展的铿锵足音。
临近春节,国地共建具身智能人形机器人创新中心(以下简称“创新中心”)的具身数据基地“人”头攒动:人形机器人、单臂机器人、双臂机器人等多类机器人本体正在进行多样任务的数据采集工作。
站在书架前,天工人形机器人右手将一本书举起,稳稳地传递给左手;一只机械臂打开锅盖、另外一只将食物放进锅里,双臂机器人流畅地完成了煮饭的操作;单臂机器人稳稳地将桃子模型放入篮筐中……这些具身智能机器人的数据集被一一录进智能数据平台。
在基地的一角,创新中心具身智能数据采集师王兆正在辅助天工人形机器人打开垃圾桶的盖子,智能平台已经自动将这次运动的数据保存和记录。“每天的工作就是辅助机器人进行特定任务的训练,一天会重复大概一百多次。”王兆告诉记者,上万条数据可以让机器人初步掌握一项动作技能。
创新中心负责人魏嘉星告诉《中国电子报》记者:“我们特别注重模拟人类行为和认知过程。工作人员会模拟人类在执行类似任务时的决策过程和行为习惯,使机器人能够更好地理解和适应人类的工作模式,确保数据的准确性和可靠性。”
数据集采集是具身智能机器人行业发展的核心壁垒。目前全球已有多家机构开源具身智能数据集,但数据质量参差不齐,部分数据实测效果不理想。符合通用标准、由模型验证有效且具备通用性的数据集,是极为稀缺的资源,已成为当前具身智能行业最大的刚需。
为尽快突破这一行业发展的共性难题,创新中心的数据采集团队临近春节也不松懈。目前,创新中心有数十位像王兆这样的机器人数据采集师,每日可以产生约10TB(10240GB)的高质量数据。不要小看这些数据,它们就是具身智能机器人变聪明的“养料”。扩充高质量的多模态数据、建设大模型训练数据库是开发基于人工智能大模型、进一步武装具身智能机器人“大脑”的重要前提,也是当前产业发展亟须突破的关键技术。
魏嘉星告诉《中国电子报》记者:“目前,创新中心已经与北京大学联合推出了一个大规模多构型智能机器人数据集和Benchmark,包含5.5万条机器人轨迹数据,涉及279项不同的任务,涵盖了61种不同的物体,覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景。”
包括人形机器人在内的具身智能机器人产业已经成为全球科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。中国具身智能机器人产业的发展与进步需要各方科研机构的努力,提升创新链、产业链、供应链资源高效配置和融合水平,进一步降低企业研发、中试成本,促进产业快速发展。
魏嘉星表示:“收集的数据将陆续开源。我们希望为行业提供高效、通用的数据基础,助力科研人员和企业更快速地开展模型开发,未来还将持续开源数据集,涵盖更多机器人本体和场景任务,助力具身智能行业在2025年实现更多的落地应用。”
(应采访对象要求,文中的王兆为化名)