根據FOREXBNB的報導,中信證券在其研究報告中指出,DeepSeek通過其工程化創新能力,實現了大型模型訓練和推理的算力成本的極致優化,並為在端側部署高性能模型提供了新思路。通過對DeepSeek V3和R1模型論文的分析,可以了解到其核心理念是“按需分配算力,最小化冗餘計算”,這使得千億級模型能夠在低成本硬件(甚至邊緣設備)上高效運行,為大規模商業化提供了技術支撐。中信證券預計DeepSeek新一代模型將推動雲端推理需求的增長,並加速AI應用在端側的落地:建議重點關注晶圓代工、國產算力芯片、定制化存儲、終端品牌、SoC五大領域。

以下是中信證券的主要觀點:

DeepSeek是如何降低訓練成本的?

1)架構創新: 在DeepSeek-V3的基礎架構中,DeepSeekMoE專家架構和MLA多頭潛在註意力機制被採用,DeepSeekMoE通過細粒度專家分配、共享專家及無輔助損失負載均衡策略優化了傳統MoE,提高了計算資源效率;MLA通過低秩聯合壓縮減少了注意力鍵值緩存的佔用,提升了計算效率並減少了內存消耗。

2)FP8混合精度訓練:DeepSeek在全球主流大模型中率先採用FP8低精度數據進行大規模訓練,大部分核心計算使用FP8以提升速度和降低內存用量,部分關鍵操作保留高精度以確保動態穩定性。

3)訓練工程優化:DeepSeek在主流大模型中首次採用硬盤作為輸入端緩存,設計了DualPipe算法實現高效的流水線並行,融合了前後向通信階段以減少阻塞;採用定制化的高效跨節點all-to-all通信內核以降低通信開銷;通過重計算、EMA、共享向量和輸出頭減少了內存佔用。

4)數據策略優化:應用了多token預測機制MTP,增加了訓練信號密度,減少了20%的訓練迭代次數,幫助模型捕捉長距離依賴關係。

DeepSeek是如何降低推理成本的?

DeepSeek-V3對推理的預填充和解碼兩個階段都優化了專家使用效率:在預填充階段,MoE通過EP32及冗餘專家策略提升了效率,解碼階段探索了動態路由以減少通信開銷;还通過支持FP8、INT8量化和提供蒸餾版本,實現了低精度量化與模型壓縮,減少了顯存佔用。DeepSeek的開源生態可以更好地支持硬件廠商適配,例如可以對MLA算子進行優化以提升推理效率,DeepSeek-R1發布後,國內外芯片廠商迅速響應支持DeepSeek。1月25日,AMD宣布已將新的DeepSeek-V3集成到Instinct MI300X GPU上,並經過SGLang對推理過程進行了優化,英偉達、英特爾也隨後在1月31日官宣支持。國內廠商都已經官宣完成對DeepSeek的適配,國產算力成為相對穩定可靠的選項,支撐國產大模型從研發走向商業化。

從DeepSeek的算力需求看AI芯片設計方向?

DeepSeek在其論文的芯片設計意見指導中指出,通信和計算同等重要,計算方面降低精度和內存需求是關鍵。在通信硬件優化上,DeepSeek建議開發獨立通信協處理器,實現計算與通信的物理分離,同時建議融合網絡架構,統一IB和NVLink的網絡協議棧,統一通信接口以简化编程复杂度和降低通信延迟;在計算硬件優化上,建議提升FP8計算精度,並支持分塊量化與在線量化,減少訪存開銷,提升推理效率。DeepSeek的建議帶來兩點啟示:

1)“推理速度”基本90%是由decoding階段決定的,因此內存容量決定大模型推理速度,內存升級仍是算力芯片升級的重點方向,看好近存計算的發展。

2)在模型開源的策略下,DeepSeek-R1蒸餾後的小模型性能有望持續快速提升,幫助端側硬件加速接入,助力AI應用全面落地。看好品牌商和SoC芯片廠商的成長機遇。

投資策略:

看好DeepSeek新一代模型帶動雲端推理需求的增長,加速AI應用在端側的落地:

1)雲端:DeepSeek有望開啟全新的Scaling Law,模型重心逐步從預訓練切換到強化學習、推理階段,助力算力需求持續增長。

2)終端:看好DeepSeek帶來模型輕量化的全面升級,端側硬件接入有望加速爆發,助力AI應用全面落地,建議關注品牌廠商,SoC芯片廠商。

風險因素:

算力芯片供應鏈風險;芯片產能供給不足的風險;互聯網大廠資本開支不及預期;相關產業政策出台力度不及預期;AI技術及應用發展不及預期;芯片技術迭代不及預期;國產先進製程量產進展不及預期;行業競爭加劇等。