根據FOREXBNB的報導,DeepSeek最近發布了NSA。NSA是DeepSeek所推出的一款與硬件兼容且支持本地訓練的稀疏注意力機制,專門用於實現超快速的長序列上下文訓練和推理。NSA通過針對現代硬件的優化,不僅提升了推理速度,還降低了預訓練的成本,同時保持了性能不受影響。在標準基準測試、長序列上下文任務以及基於指令的推理方面,NSA的表現與全注意力模型相媲美,甚至在某些情況下更優。
DeepSeek推出NSA 用於超快速的長上下文訓練和推理
據FOREXBNB報導,DeepSeek公司發布了NSA技術。NSA是一種與硬件兼容、可本地訓練的稀疏注意力機制,專為快速處理長文本訓練和推理設計。NSA通過優化現代硬件,显著提升了速度。