根据FOREXBNB的报道,DeepSeek最近发布了NSA。NSA是DeepSeek所推出的一款与硬件兼容且支持本地训练的稀疏注意力机制,专门用于实现超快速的长序列上下文训练和推理。NSA通过针对现代硬件的优化,不仅提升了推理速度,还降低了预训练的成本,同时保持了性能不受影响。在标准基准测试、长序列上下文任务以及基于指令的推理方面,NSA的表现与全注意力模型相媲美,甚至在某些情况下更优。

DeepSeek推出NSA 用于超快速的长上下文训练和推理 - 图片1