智元机器人发布具身智能大模型及大模型评测基准

第06版：人工智能

放大+ 缩小- 默认o

智元机器人发布具身智能大模型及大模型评测基准

本报讯近日，智元机器人发布了全球首个基于机器人动作序列驱动的具身世界模型EVAC（EnerVerse-AC），以及具身世界模型评测基准EWMBench。这两大创新成果现已全面开源，旨在构建“低成本模拟-标准化评测-高效迭代”的全新开发范式，持续赋能全球具身智能研究，加速技术落地与产业发展。

据悉，当前具身智能演进面临两大关键制约：在测试阶段，真机验证代价大、风险高，仿真系统又受制于虚实偏差；在数据层面，海量真机数据尚未构建基于轨迹扩增的高效利用机制，限制了多样性生成与泛化训练。为打破困局，智元机器人在去年发布的世界模型架构EnerVerse基础上推出创新成果：基于动作序列驱动的世界模型EVAC与具身世界模型评测榜单EWMBench，构建从训练到评测全链路技术闭环，重新定义具身世界模型研发范式。

EVAC是一个能够动态复现机器人与环境复杂交互的世界模型，标志着从传统仿真到生成式模拟的跃迁。EVAC基于前序工作EnerVerse架构持续演进，创新型引入多级动作条件注入机制，实现“物理动作-视觉动态”的端到端生成，其核心能力体现在四个方面：一是机器人动作与像素的高精度对齐，二是动态多视图建模，三是长时序一致性，四是数据高效利用。

针对真机评测成本高、风险大、难以复现等痛点，EVAC提出了生成式模拟评测方案，它能与待评测的策略模型进行交替推理，构建起一套完整的交互式评测管线。实验显示，在多个任务中，EVAC所生成的评测结果与真机评测的成功率具有高度一致性，甚至能够可靠地识别出性能更优的模型权重，大幅提升了策略模型的筛选效率。

为了科学、系统地衡量具身世界模型的性能表现，智元机器人推出了全球首个具身世界模型评测基准——EWMBench，旨在填补行业空白，构建统一、可信的评测标准。针对机器人操作场景的复杂性与特殊性，EWMBench构建了立体化的评估体系，从场景一致性、动作合理性与语义对齐与多样性三大核心指标进行分析。

相较于当前主流视频生成评测基准VBench，EWMBench在评测结果与人类主观判断的一致性方面表现更优，能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。

记者了解到，具身世界模型EVAC和具身世界模型评测基准EWMBench的发布和开源，将全面破解模型评测成本高和数据价值未充分挖掘利用的行业痛点，标志着具身智能进入“算法-评测”协同进化时代。（志文）

放大+ 缩小- 默认o