• 官方微信公众号
  • 电子信息产业网
  • 微博
第06版:人工智能

DeepSeek发布NSA注意力机制

本报讯 2月18日,DeepSeek团队发布了一篇新论文,介绍了一种改进的稀疏注意力机制NSA,可用于超快速的长上下文训练与推理。NSA以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

据DeepSeek介绍,NSA具有三大核心组件:动态分层稀疏策略、粗粒度token压缩、精粒度token选择。通过三大组件的配合,既提升了效率,也保留了模型对全局长上下文的感知能力和局部精确性。

这一机制专门针对现代硬件进行优化设计,原生支持模型训练,在加速推理的同时降低预训练成本,对性能也无明显影响。采用NSA机制的模型在通用基准、长上下文任务和基于指令的推理上,与全注意力模型相当或表现更优。

在8卡A100计算集群上,NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍,由于减少了内存访问量,NSA在长序列解码时相较于全注意力模型速度显著提升。(文 编)

2025-02-21 1 1 中国电子报 content_12934.html 1 DeepSeek发布NSA注意力机制 /enpproperty-->