2月18日,DeepSeek团队发表了一篇论文,介绍了他们研发的新型注意力机制——NSA(Natively Sparse Attention,原生稀疏注意力机制)。
NSA是为长文本训练和推理量身定制的,它通过动态分层稀疏策略等技术,针对现代硬件进行优化设计,显著提升了传统AI模型在训练和推理阶段的表现,尤其是在处理长上下文时,不仅保持了性能,还加快了推理速度,并有效降低了预训练成本。
DeepSeek的创始人梁文锋也在论文的作者名单中,排名倒数第二。
参与研究的其他人员包括来自DeepSeek、北京大学和华盛顿大学的专家,其中论文的第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成这项研究的。
资料显示,袁景阳目前是北京大学的硕士研究生,他的研究领域涵盖大型语言模型(LLM)和人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,并参与了DeepSeek-R1项目,该项目的目标是通过强化学习来增强大型语言模型的推理能力。
在论文中,DeepSeek团队指出,随着大型语言模型的发展,长上下文建模变得越来越关键,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了限制模型发展的一个主要瓶颈。
NSA作为一种技术路径,旨在高效处理长上下文任务,其核心创新点包括:
1) 动态分层稀疏策略:结合了粗粒度的Token压缩和细粒度的Token选择,既确保了全局上下文的感知,又保证了局部信息的精确性。
2) 硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提高了计算速度,同时支持端到端训练,减少了预训练的计算量。
实验结果表明,NSA不仅在通用任务和长上下文任务中表现优异,还在链式推理等复杂任务中展现了巨大的潜力,并且推理速度得到了提升。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均达到了甚至超过了传统全注意力(Full Attention)模型的水平,以极高的性价比,在训练阶段应用稀疏性,在训推场景中实现了速度的显著提升,特别是在解码阶段实现了高达11.6倍的提升。
凭借高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。例如,Gemini 1.5 Pro已经展示了长上下文的潜力,而NSA可以进一步降低这类模型的训练与推理成本。
本文来源于“财联社”,由FOREXBNB的编辑刘家殷编辑。