具身智能进入数据之年

第01版：要闻

下一版

放大+ 缩小- 默认o

具身智能进入数据之年

本报记者杨鹏岳

图为北京人形机器人创新中心数据基地

对于具身智能产业而言，2026年注定是“数据”之年。从“数据孤岛”到“数据底座”，从“炫技表演”到“务实应用”，行业正在经历一场深刻而艰难的蜕变。数据的规模化、标准化、高质量化，将助力人形机器人跨越“泛化性”的天堑，真正成为赋能千行百业、走进千家万户的智能基础设施。

这场关于数据的攻坚战，才刚刚拉开序幕。作为连接数字智能与物理世界的桥梁，具身智能数据正成为这场产业变革的“新石油”。

“数据”将是最后一道壁垒？

如果说大语言模型（LLM）的成功依赖于互联网海量文本数据的“涌现”，那么具身智能的进化则依赖于高质量的真实物理交互数据。具身智能数据，并非简单的图像或文本，它是机器人在与物理环境交互过程中产生的多模态、时空对齐的复杂信息集合，涵盖了视觉、动作、力/触觉、环境以及交互等多个维度。这些数据共同构成了智能体学习在真实世界中感知、决策与执行的基础。

上海交通大学助理教授穆尧指出，从目前趋势看，数据是重要的，其中高质量数据是最重要的。他指出，硬件发展已到一定高度，但机器人手部操作的成熟度远低于人类，模型架构也基本够用，因此“优质数据”是解决问题的重要因素。

行业内人士深知，机器人本体质量虽在提升，但“泛化性不足”导致机器人进入千行百业总还有“最后一公里”距离。让模型理解物理规律、掌握灵巧操作本领，海量且真实的带物理模态的数据是唯一解药。IDC中国研究经理李君兰表示，当前具身智能机器人正处于技术高度复杂且潜力巨大的交汇点。虚实融合数据体系成为持续进化的核心基础，仿真合成数据成为规模化训练的主体，视频学习正在成为潜在扩展路径，遥操作实采数据作为高质量补充，通过闭环训练、仿真微调与在线反馈，支撑机器人在低成本条件下实现能力扩展与持续进化。

在这场关乎行业未来主动权的竞赛中，谁掌握了数据，谁就掌握了行业定义权。自今年以来，产业界对此的响应速度空前。

3月16日，京东集团宣布，依托其超级供应链和海量真实业务场景，将建成全球规模最大、场景最全的具身智能数据采集中心，并在未来两年内积累超1000万小时的优质数据。据悉，京东将开放这些数据，助力具身智能产业从算法仿真迈向真实数据驱动的新阶段。

接着，帕西尼感知科技继去年建成全球最大的天津数据工厂后，再次宣布在江苏宿迁、湖北武汉、四川自贡、江西赣州新建4座超级数据采集工厂，形成覆盖全国五大区域的具身智能数据集群，目标是以“百亿级”实采数据为产业筑牢高质量底座。帕西尼创始人、CEO许晋诚表示：“高质量多模态数据的稀缺是制约智能进化的瓶颈，目前行业数据储备与实际训练需求之间存在指数级差距。”

3月27日，宇树科技开源了面向全球开放的高质量全身遥操作真机数据集UnifoLM-WBT-Dataset，旨在构建场景覆盖“最广”、任务复杂度“最高”、操作多样性“最丰富”的人形机器人真机数据体系。此外，北京人形机器人创新中心的数据基地也已成为国内数据采集的重要力量。据悉，该基地已牵头制定了国内首个具身智能数据集行业标准《人工智能具身智能数据采集规范》，对外市场化交付超数万小时高质量实采数据，整体数据合格率稳定在95%以上，有望迎来全球首个采集完成百万小时高质量具身智能机器人数据的里程碑。

密集的行业动作表明，2026年，已然成为具身智能数据规模化生产与应用的“元年”。

数据之困瓶颈在哪儿？

尽管行业热情高涨，但具身智能数据的工程化落地之路并非坦途，在业内专家看来，当前行业面临以下核心挑战。

首先，数据孤岛与“方言”问题严重。不同构型的机器人本体，其传感器布局、关节自由度、控制接口各不相同，导致采集的数据天然带有“机器人形态烙印”，难以跨本体迁移和复用。这直接构成了数据共享与复用的巨大障碍。

北京人形机器人创新中心数据基地负责人蒋未来指出：“数据异构形成数据孤岛是行业大问题，需要积累到大语言模型内置级别涌现智能的数据等级，否则单个企业的数据量有限。”智源研究院院长王仲远也表达了同样的担忧：“数据孤岛下，大家各做各的数据，格式都不一样。重复采集数据，训练各自的模型，也很难部署在不同款型的机器人上。这就意味着大家都在重复造轮子，资源出现重大浪费。”

其次，数据采集成本高昂。真机数据质量最高，其成本也最为昂贵。赛迪智库分析报告指出，单台设备产生1万小时训练数据甚至需要消耗上百万元。同时，人员成本也居高不下，一个数采员一天只能采集300~500条数据，复杂任务产出更低。蒋未来坦言，真机数采的成本构成包括资产折旧、人员效率和数据损耗。“如果有效率在95%以上和75%以上，成本会差很多。”他说道。

再次，数据质量与有效性参差不齐。数据质量不仅关乎采集的精度，更关乎其是否能为模型训练提供有效“养分”。劣质数据不仅浪费资源，更可能误导模型。

最后，数据标准体系缺失。这是行业最底层的痛点。无论是数据采集的格式、标注的规范，还是数据质量的评估，都缺乏统一的标准。专家表示，数据标准不一致，使用的组织就需要用大量精力去做后端的工具链开发。此外，现在不同机构的开源数据集在数据格式、标注体系等方面存在显著差异，导致数据难以跨项目集成与复用。

破局之道从何出发？

面对重重挑战，产业界并未却步，而是从多个维度积极探索破局之道。

首先，对数据采集的范式进行革新。帕西尼重塑数据集第一性原理，创建了“以人为中心”（Human-Centered）的数采体系，让人做回数据的“生产者”。以自研的高精度自主物理感知硬件为触点，帕西尼开发了高精度多维触觉采集终端PMEC，配合空间视觉矩阵，共同构建起“以人为中心”的含稀缺触觉模态的全模态感知高精度实采具身数据体系。此外，它石智航也提出了“以人为中心”的数据采集范式，思路是“好的数据范式是你工作、你生活，而我记录你”。这一理念的核心在于，构建通用物理智能的关键是让模型学习人类在真实环境中的自然行为，而不是用遥操或仿真数据得到一个头重脚轻、不能在真实复杂环境中使用的VLA模型。为此，它石智航自主研发了SenseHub数据采集套件，去规避遥操作难以规模化的瓶颈，弥补仿真数据与现实之间的鸿沟。

其次，为了在数据规模与成本之间找到平衡点，行业也在积极探索无本体数据采集和高质量仿真数据生成。比如，无本体采集不和具体机器人绑定，理论上可以扩大规模、降低投入，并解决数据孤岛问题，但有效性还需更多检验和证明。专家表示，无本体、世界模型路线尝试解耦数据和机型，需要研发突破，先证明这些数据训练效果和真机一样好，再解决构型绑定问题，才容易形成统一市场，方便交易。

再次，加速数据标准制定，打通产业“任督二脉”。标准化是解决数据孤岛、降低行业成本、促进生态繁荣的根本途径。去年年末，工信部人形机器人与具身智能标准化技术委员会正式成立，我国首个覆盖全产业链、全生命周期的《人形机器人与具身智能标准体系（2026版）》随之发布，标志着行业进入规范化、系统化发展新阶段。专家指出：“现在人形机器人的标准在全世界范围内都是没有的，这给了我们一个很好的契机，让中国标准成为世界标准。”

最后，构建数据生态，开放共享，协同进化。数据作为新型生产要素，其价值在于流通与复用。京东、宇树科技、帕西尼等企业纷纷选择开源或开放数据，正是看到了这一点。

从京东的千万小时数据布局，到帕西尼的全国数据集群，再到行业标准的逐步落地，2026年的具身智能产业，已经告别“炫技式”发展的浮躁，稳步迈入务实落地的深水区。未来，随着数据生态的不断完善、技术范式的持续革新，具身智能终将凭借坚实的数据底座，真正走进千家万户、赋能千行百业，开启人机共生的全新篇章。

放大+ 缩小- 默认o