在春節期間,DeepSeek的新一代開源模型因其極低的成本和卓越的性能成為了熱門話題,在全球投資領域引起了巨大的震動。
市場上流傳著一種說法,即DeepSeek“僅用500萬美元就複製了OpenAI”,並認為這可能會給整個AI基礎設施行業帶來災難性的影響。
對此,華爾街的著名投資銀行伯恩斯坦在深入研究了DeepSeek的技術文件後發表了一份報告,指出市場的恐慌情緒顯然是過度的,而“500萬美元復制OpenAI”的說法是對DeepSeek的誤解。
此外,該銀行認為,儘管DeepSeek的效率提升是显著的,但從技術角度來看,這並不是一個奇蹟。即使DeepSeek確實實現了10倍的效率提升,這也僅僅與當前AI模型每年的成本增長幅度相當。
該銀行還表示,目前的AI計算需求遠遠沒有達到上限,新增的計算能力很可能會被不斷增長的使用需求所吸收,因此對AI行業保持樂觀態度。
“500萬美元復制OpenAI”是誤解
對於“500萬美元復制OpenAI”的說法,伯恩斯坦認為,這實際上是對DeepSeek V3模型訓練成本的片面理解,錯誤地將GPU租用成本等同於總投入:
這500萬美元僅是基於每GPU小時2美元的租賃價格估算的V3模型訓練成本,並未包括前期的研發投入、數據成本以及其他相關費用。
技術革新:效率大幅提升但非顛覆性突破
伯恩斯坦在報告中詳細分析了DeepSeek發布的兩大模型V3和R1的技術特點。
(1)V3模型的效率革命
該銀行表示,V3模型採用了專家混合架構,使用2048塊NVIDIA H800 GPU和大約270萬GPU小時就達到了與主流大模型相媲美的性能。
具體來說,V3模型採用了混合專家(MoE)架構,这种架構旨在降低训练和运行成本。在此基礎上,V3還結合了多頭潛在註意力(MHLA)技術,显著减少了缓存大小和内存使用。
同時,FP8混合精度訓練的使用進一步優化了性能。這些技術的結合使得V3模型在訓練時只需要同等規模開源模型約9%的計算能力,就能達到甚至超越其性能。
例如,V3預訓練只需要約270萬GPU小時,而同樣規模的開源LLaMA模型則需要約3000萬GPU小時。
MoE架構:每次只激活部分參數,減少計算量。
MHLA技術:降低內存佔用,提升效率。
FP8混合精度訓練:在保證性能的同時,進一步提升計算效率。
在談到V3模型帶來的效率提升時,伯恩斯坦認為,與業界3-7倍的常見效率提升相比,這並不是一個顛覆性的突破:
MoE架构的重点是显著降低训练和运行的成本,因為在任何一次只有一部分參數集是活動的(例如,當訓練V3時,只有671B個參數中的37B為任何一個令牌更新,而密集模型中所有參數都被更新)。
對其他MoE的比較研究表明,典型的效率是3-7倍,而類似大小的密度模型具有類似的性能;
V3看起來甚至比這個更好(10倍以上),可能考慮到該公司在模型中帶來的其他一些創新,但認為這是完全革命性的想法似乎有點誇張,並且不值得在過去幾天裡席捲twitter世界的歇斯底里。
(2)R1模型的推理能力與“蒸餾”策略
DeepSeek的R1模型在V3的基礎上,通過強化學習(RL)等創新技術,显著提升了推理能力,使其能夠與OpenAI的o1模型相媲美。
值得一提的是,DeepSeek還採用了“模型蒸餾”策略,利用R1模型作為“教師”,生成數據來微調更小的模型,這些小模型在性能上可以與OpenAI的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為AI技術的普及提供了新的思路。
強化學習(RL):提升模型推理能力。
模型蒸餾:利用大模型訓練小模型,降低成本。
對AI板塊保持樂觀
伯恩斯坦認為,即使DeepSeek確實實現了10倍的效率提升,這也僅相當於當前AI模型每年的成本增長幅度。
事實上,在“模型規模定律”不斷推動成本上升的背景下,像MoE、模型蒸餾、混合精度計算等創新對AI發展至關重要。
根據傑文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該銀行認為,目前的AI計算需求遠遠沒有達到上限,新增的計算能力很可能會被不斷增長的使用需求所吸收。
基於以上分析,伯恩斯坦對AI行業保持樂觀態度。
本文轉載自“華爾街見聞”,作者:高智謀;FOREXBNB編輯:蔣遠華。