2月18日,DeepSeek團隊發表了一篇論文,介紹了他們研發的新型注意力機制——NSA(Natively Sparse Attention,原生稀疏注意力機制)。

NSA是為長文本訓練和推理量身定制的,它通過動態分層稀疏策略等技術,針對現代硬件進行優化設計,显著提升了传统AI模型在訓練和推理階段的表現,尤其是在處理長上下文時,不僅保持了性能,還加快了推理速度,並有效降低了預訓練成本。

DeepSeek的創始人梁文鋒也在論文的作者名單中,排名倒數第二。

參與研究的其他人員包括來自DeepSeek、北京大學和華盛頓大學的專家,其中論文的第一作者Jingyang Yuan(袁景陽)是在DeepSeek實習期間完成這項研究的。

資料顯示,袁景陽目前是北京大學的碩士研究生,他的研究領域涵蓋大型語言模型(LLM)和人工智能在科學中的應用(AI for Science)。他是DeepSeek-V3技術報告的主要作者之一,並參與了DeepSeek-R1專案,该專案的目标是通过强化学习来增强大型语言模型的推理能力。

在論文中,DeepSeek團隊指出,隨著大型語言模型的發展,長上下文建模變得越來越關鍵,但傳統注意力機制的計算複雜度隨著序列長度的增加而呈平方級增長,這成為了限制模型發展的一個主要瓶頸。

NSA作為一種技術路徑,旨在高效處理長上下文任務,其核心創新點包括:

1) 動態分層稀疏策略:結合了粗粒度的Token壓縮和細粒度的Token選擇,既確保了全局上下文的感知,又保證了局部信息的精確性。

2) 硬件對齊與端到端訓練:通過算術強度平衡的算法設計和硬件優化,显著提高了计算速度,同時支持端到端訓練,減少了預訓練的計算量。

實驗結果表明,NSA不僅在通用任務和長上下文任務中表現優異,還在鍊式推理等複雜任務中展現了巨大的潛力,並且推理速度得到了提升。在通用基準測試、長文本處理以及基於指令的推理任務中,NSA的表現均達到了甚至超過了傳統全注意力(Full Attention)模型的水平,以極高的性價比,在訓練階段應用稀疏性,在训推场景中实现了速度的显著提升,特別是在解碼階段實現了高達11.6倍的提升。

憑藉高效的長序列處理能力,NSA使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大型語言模型在文檔分析、代碼生成、複雜推理等領域的應用範圍。例如,Gemini 1.5 Pro已經展示了長上下文的潛力,而NSA可以進一步降低這類模型的訓練與推理成本。

本文來源於“財聯社”,由FOREXBNB的編輯劉家殷編輯。