本报讯 6月27日,腾讯混元宣布开源首个混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数仅13B。模型已经在Github和Huggingface等开源社区上线,同时模型API也在腾讯云官网正式上线,支持快速接入部署。
据介绍,这是业界首个13B级别的MoE开源混合推理模型,基于先进的模型架构,Hunyuan-A13B表现出强大的通用能力,并且在Agent工具调用和长文能力上有突出表现。
对于时下热门的大模型Agent能力,腾讯混元建设了一套多Agent数据合成框架,接入了 MCP、沙箱、大语言模型模拟等多样的环境,并且通过强化学习让Agent在多种环境里进行自主探索与学习,进一步提升了Hunyuan-A13B的效果。
在长文方面,Hunyuan-A13B 支持256K原生上下文窗口,在多个长文数据集中取得了优异的成绩。
在实际使用场景中,Hunyuan-A13B模型可以根据需要选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考涉及更深、更全面的推理步骤,如反思和回溯。这种融合推理模式优化了计算资源分配,使用户能够通过加think/no_think切换思考模式,在效率和特定任务准确性之间取得平衡。
Hunyuan-A13B模型对个人开发者较为友好,在严格条件下,只需要1张中低端GPU卡即可部署。目前,Hunyuan-A13B已经融入开源主流推理框架生态,无损支持多种量化格式,在相同输入输出规模上,整体吞吐是前沿开源模型的2倍以上。
Hunyuan-A13B集合了腾讯混元在模型预训练、后训练等多个环节的创新技术,这些技术共同增强了其推理性能、灵活性和推理效率。
预训练环节,Hunyuan-A13B训练了20T tokens的语料,覆盖了多个领域。高质量的语料显著提升了模型通用能力。此外,在模型架构上,腾讯混元团队通过系统性分析,建模与验证,构建了适用于MoE架构的Scaling Law联合公式。这一发现完善了MoE架构的Scaling Law理论体系,并为MoE架构设计提供了可量化的工程化指导,也极大地提升了模型预训练的效果。
后训练环节,Hunyuan-A13B 采用了多阶段的训练方式,提升了模型的推理能力,同时兼顾了模型创作、理解、Agent等通用能力。
为更好地提升大语言模型能力,腾讯混元也开源了两个新的数据集。其中,ArtifactsBench用于弥合大语言模型代码生成评估中的视觉与交互鸿沟,构建了一个包含 1825个任务的新基准,涵盖了从网页开发、数据可视化到交互式游戏等九大领域,并按难度分级以全面评估模型的能力;C3-Bench针对Agent场景模型面临的三个关键挑战:规划复杂的工具关系、处理关键的隐藏信息以及动态路径决策,设计了1024条测试数据,以发现模型能力的不足。 (讯 文)