根據FOREXBNB的報導,國泰君安在其研究報告中指出,DeepSeek通过模型优化显著降低了成本,其價值可能從模型層面轉移到應用層面。DeepSeek已經成為全球增長最快的AI應用之一,僅用20天就實現了2000萬的日活躍用戶(DAU),這帶來了巨大的推理計算需求。因此,國泰君安推薦關注在算力領域受益的英偉達(NVDA.US)、台積電(TSM.US),以及在應用領域受益的騰訊(00700)、小米(01810)、Meta(META.US)、Google(GOOGL.US)。
以下是國泰君安的核心觀點:
DeepSeek通過多項工程創新,實現了訓練成本的降低、推理成本的降低以及模型效果的提升。
1) 降低訓練成本:DeepSeek採用了較寬的MOE架構,並提出了共享專家機制,僅在每次訓練中激活所需的專家(按需激活),而不是全部激活,從而大幅降低了訓練成本。此外,通過使用fp8低精度訓練、雙管道訓練、多Token預測等技術進一步降低了訓練成本。
2) 降低推理成本:DeepSeek引入了多頭潛在註意力(MLA)機制,在不犧牲模型質量的情況下,显著减少了KV緩存的大小。同時,通過低精度存儲和通信、推理階段動態專家選擇等方法進一步降低了推理成本。
3) 提高模型效果:與常規的SFT不同,DeepSeek採用強化學習進行後訓練,显著提升了模型的推理能力。此外,DeepSeek針對中文進行了大量風格對齊,显著提升了模型的可用性。
DeepSeek的模型降本效應,從長遠來看,將為AI應用產業打開上升通道,算力需求不減反增。
正如蒸汽機效率的提升並未導致煤炭使用量的減少,DeepSeek雖然實現了模型的大幅降本,但從長遠來看,將為AI應用產業打開上升通道,算力需求不減反增。算力需求的多樣性表現在:1) 模型向更高智能維度的躍遷需要更多的算力。2) AI應用的推理需要廣泛的算力,更多的人將訓練和推理自己的模型。3) 對等異構計算的新主流計算形態需要更多的GPU。4) 目前模型僅停留在對話層面,未來從對話到任務、到多模態的轉變還需要更多的算力支持。
根據AI產品榜的數據,DeepSeek應用(APP,非網頁)成為增長最快的AI產品,上線20天就達到了DAU 2000萬,顯示出模型能力提升對用戶的極大吸引力,並帶來了潛在的巨大推理算力需求。
DeepSeek並沒有真正繞過CUDA架構。
DeepSeek沒有使用CUDA的API,而是直接使用PTX,以實現對計算過程的更細粒度控制。PTX是英偉達GPU架構中的技術,是CUDA編程模型中的中間表示,用於連接CUDA高級語言代碼和GPU底層硬件指令。編寫PTX代碼的做法非常複雜且難以維護,對技術人員的要求極高,且移植性較差,難以移植到不同型號的GPU。
DeepSeek基於PTX進行優化表明他們有能力優化其他GPU,但這並不意味著完全脫離了CUDA生態,也不意味著其他團隊有能力直接使用PTX,因此英偉達的CUDA護城河依然存在。
風險提示包括:地緣政治風險;大模型迭代進展不及預期;監管風險;商業化進度不及預期。