根據FOREXBNB的報導,DeepSeek最近發布了NSA。NSA是DeepSeek所推出的一款與硬件兼容且支持本地訓練的稀疏注意力機制,專門用於實現超快速的長序列上下文訓練和推理。NSA通過針對現代硬件的優化,不僅提升了推理速度,還降低了預訓練的成本,同時保持了性能不受影響。在標準基準測試、長序列上下文任務以及基於指令的推理方面,NSA的表現與全注意力模型相媲美,甚至在某些情況下更優。

DeepSeek推出NSA 用於超快速的長上下文訓練和推理 - 圖片1