在上週,來自中國DeepSeek的AI工程師團隊所開創的DeepSeek R1大模型可謂霸榜美國熱搜,並且DeepSeek應用程式已登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越ChatGPT,堪稱屬於中國AI的“里程碑時刻”。DeepSeek團隊證明,他們能夠在沒有世界最頂級的英偉達高性能AI GPU提供強大AI算力的情況下,以極低成本加上性能普通的AI加速器訓練出推理能力一流的突破式開源AI大模型,這也意味著未來大模型訓練/推理比拼的不再是動輒千萬億美元的AI GPU算力戰,極有可能是人人都能參與的“腦力激盪”。

DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本和2048塊性能遠低於H100與Blackwell的H800晶片條件下,DeepSeek團隊打造出性能堪比OpenAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬個token的查詢成本僅為0.14美元,而OpenAI的成本為7.50美元,成本降幅高達驚人的98%。展望未來AI算力前景,DeepSeek R1橫空出世也重磅宣告隨著訓練/推理步入“極致壓縮+高效強化訓練+AI推理算力大幅簡化”的低成本新範式,屬於AI ASIC的時代降臨。

據了解,UC伯克利、MINATO部門、HuggingFace等頂尖學術團隊與AI科技大拿們在上週紛紛成功復現DeepSeek,只用強化學習,沒有監督微調,30美元就能見證所謂的“啊哈時刻”,即Aha moment,也被稱作所訓練的AI大模型的“頓悟時刻”。全球AI大模型,或許正在進入下一分水嶺。誠如圖靈獎得主Yann Lecun所言:“這一次,正是開源對閉源AI大模型的勝利!”DeepSeek火遍全球,一度讓DeepSeek應用介面閃崩,但問題在數分鐘內得到解決。中國AI界上一次出現宕機狀況,還是月之暗面Kimi出圈之時。

為何認定屬於AI ASIC的時代到來?DeepSeek大模型所彰顯的AI訓練端“極致工程+集中精度”的技術趨勢,確實讓AI ASIC相較於動輒購買成本高達數十億美元的英偉達AI GPU在GPU引以為傲的AI訓練端更具算力系统可行性与竞争力。在AI推理端,隨著未來生成式AI軟件以及AI代理等最前沿AI應用大規模普及,推理端算力需求將愈發龐大,疊加DeepSeek開創的範式大幅降低推理成本,AI ASIC在聚焦於高效且天量級神經網路並行計算的AI推理領域無論性能和成本優勢,都比AI GPU大得多。

DeepSeek R1重磅出爐之後,全球科技股投資者以及推崇AI的科技粉絲們對於英偉達(NVDA.US)高效能AI GPU(Hopper架構與Blackwell架構GPU)的信仰可謂出現重大裂痕,令投資人不禁懷疑:數百億美元支出規模,對於Meta、微軟等AI大廠來說真的必要嗎? 大廠們聯手博通(AVGO.US)/Marvell(MRVL.US)推出自研AI ASIC(即定制化AI晶片)豈不是性價比高得多?雖然英偉達也表示未來將進軍AI ASIC領域,但目前尚未有任何佈局,且难以撼动深耕该領域多年的博通与Marvell的定制化AI晶片主导地位。

DeepSeek用開源方式證明:打造出堪比o1的大模型不需要無腦堆積“英偉達AI GPU”

DeepSeek本次霸榜美國乃至全球社交媒體熱搜,起因在於1月20日其正式發布推理大模型DeepSeek-R1,該大模型經多位科技界大拿在上週證實其在數學、程式設計和推理等關鍵領域的表現,能與OpenAI推出的號稱“人類史上最強推理模型”的o1“掰手腕”,但其總體API調用成本卻低了95%左右。

DeepSeek 的低成本+超高效+不輸於o1的大模型綜合性能,源於對大模型訓練流程的每個環節都施加了“極致工程”與“精細調”,幅降低大模型訓練/推理成本。比如,以極致工程为导向的高效训练與数据压缩策略,透過多層注意力(MLA)——尤其對Query端進行低秩化,從而在訓練時減少激活內存負擔,還包括FP8 混合精度訓練、DualPipe 平行通信、專家門控(MoE)負載均衡等手段,讓 DeepSeek 在訓練階段將硬件資源利用率最大化,減少“不必要的算力浪費”,以及“強化學習(即RL)+蒸餾+專業數據優化”的創新型AI訓練舉措,無需依賴監督微調(SFT)或人工標註數據。

DeepSeek掀起算力新範式! “英偉達信仰”現裂痕,屬於AI ASIC的時代悄然而至? - 圖片1

DeepSeek 在完成主干預訓練後,針對數學、程式設計、長上下文等“高價值能力”做強化學習或蒸餾精調。透過少量GPU小時的“深度強化學習”大幅提升特定任務指標,而無需對整套模型做全量高成本訓練,尤其是“R1-Zero”完全不用預先提供思維鏈範例及複雜獎勵模型,而是只用簡單的“對錯獎勵 + 格式獎勵”,便通過訓練算法能讓AI大模型自發地在推理過程中產生“頓悟(Aha Moment)”式的思考。

簡而言之,DeepSeek透過“極致工程化、並行優化以及精篩數據”為核心來不斷削減通用算力的“無效消耗”,把資源集中到最能提升模型效能的核心模組(注意力頭、關鍵算子、RL/蒸餾微調等),展示了“極致工程化 + 後訓練端蒸餾 + 專業數據整合+主攻強化訓練”新範式如何在有限GPU 資源下逼近乃至超越行業主流大模型性能,對傳統“巨額燒錢”模式提出了強力挑戰。因此DeepSeek將硬件和算法的潛能最大化挖掘——這與過去很長一段時間美國科技大廠們“粗放式燒錢”在某種程度上形成鮮明對比。

DeepSeek引領的“低成本算力浪潮”已經令投資者開始懷疑美國AI大廠們支出的合理性,如果這些科技巨頭AI巨額投入仍然無法產生令投資者感到滿意的創收與盈利,以及超出市場預期的業績數據,可能迎來比去年夏季時期規模更大的“科技股拋售浪潮”。

據了解,雖然訓練/推理成本相比於GPT家族以及LIama開源大模型驟降,但是DeepSeek大模型的多個性能指標卻位於產業頂尖水平。性能評估結果顯示,通過純強化學習方法訓練得到的 DeepSeek-R1-Zero以及在此基礎上改進的 DeepSeek-R1,在 2024 年AIME(美國數學邀請賽)測試中分別取得了 71.0% 和 79.8% 的成績,與 OpenAI o1 的79.2%水平可謂並駕齊驅。DeepSeek-R1在演算法類別程式碼場景(Codeforces)以及GPQA、MMLU中的最終得分略低於OpenAI o1,但是在評估AI大模型在解決實際軟體工程問題能力的SWE-Bench Verified方面,意外強於o1。

DeepSeek掀起算力新範式! “英偉達信仰”現裂痕,屬於AI ASIC的時代悄然而至? - 圖片2

博通領銜AI ASIC強勢崛起! 未來有望不斷蠶食屬於AI GPU的份額

AI訓練,長期以來是英偉達AI GPU堪稱絕對壟斷的領域,佔據市場份額高達驚人的95%。然而,隨著AI 訓練端有望通过“極致工程化 + 后訓練端蒸馏 + 專業數據整合+主攻强化訓練”新範式不斷削減通用算力的“無效消耗”,把資源集中到最能提升模型效能的核心模組,这种趋势有利于在訓練端逐步采用专用化/高能效的芯片,比如AI ASIC,有望逐渐占据訓練端至少10-20%份額。主要因为当模型结构和訓練流程逐渐成熟稳定后,例如一些規模龐大但結構相對標準的 Transformer變體,ASIC 可以在相對“固定”的核心算子上進行極致優化,从而显著提升訓練效率、降低硬體和電費成本。

但是,這種轉變不是一蹴而就,在當前AGI仍處於研發進程,AI GPU的靈活性與通用性仍然是AI訓練最倚重的專屬能力。超大規模的AI模型,比如GPT家族與LIama開源家族,在“研究探索”或“快速迭代”階段對算子靈活性、網路結構可變性的需求依舊很高——這是通用 GPU 仍佔優勢的主要原因。

因此,中長期AI訓練端大機率將是GPU與ASIC完美並存,而絕非當前GPU一家獨家。當AI大廠/機構想要大規模訓練“固定/穩定下來的核心結構”時,ASIC 在片上內存/帶寬設計上可比通用 GPU 做得更極致,ASIC可能更具性價比;而當AI大模型結構頻繁迭代、需要通用并行和快速适配時,英偉達AI GPU依然是不二之選。

DeepSeek低成本範式表明,AI推理完全能夠透過演算法工程最佳化以降低推理開銷,讓大機型得以更便捷、更廉價地進行部署,這也意味著未來AI推理端AI ASIC優勢將更加龐大。英偉達通用AI GPU 雖然功能強大,但其功耗、企業購買成本以及算力租用成本在大規模推理算力場景下壓力大得多。微軟、亞馬遜、谷歌以及Meta,無一例外都在聯手博通或者Marvell自研AI ASIC晶片,用於海量推理端算力部署。例如Google聯手博通打造的TPU(Tensor Processing Unit)就是一種最典型的AI ASIC。

摩根士丹利近日發布的研發顯示,AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元,年復合增長率達到34%。不過大摩表示,AI ASIC的崛起並不意味著英偉達AI GPU前景悲觀,該機構認為這兩種晶片體系將長期共存,為終端需求場景提供結合兩者優勢的解決方案。另外,大摩透過TCO模型比較了AI ASIC和AI GPU在AI訓練和推理任務中的成本效益,結果顯示ASIC的初始成本較低,尤其適合預算有限的雲端服務供應商們。

隨著大模型架構逐漸朝向幾種成熟範式收斂(例如標準化的 Transformer 解碼器、Diffusion 模型流水線),ASIC可以更容易地吃下主流推理端算力負載。而某些雲端服務商或產業巨頭會深度耦合軟體棧,讓 ASIC兼容常見的網絡算子,並提供優秀的開發者工具,這將加速 ASIC 推理在常態化/海量化場景中的普及。

展望未來算力前景,英偉達AI GPU可能更多專注在超大規模前沿探索性的訓練、變化極快的多模態或新結構快速試驗,以及 HPC、圖形渲染、可視分析等通用算力。AI ASIC則聚焦於深度學習特定算子/資料流做極致優化,也就是擅長穩定結構推理、批量高通量、高能效比。比如,如果一家雲端平台的AI工作負載中大量使用針對 CNN/Transformer 中常見算子(例如矩陣乘法、卷積、LayerNorm、Attention等),大多AI ASIC會針對這些算子做深度定制;影像辨識(ResNet系列、ViT)、基於Transformer的自動語音識別(Transformer ASR)、Transformer Decoder-only、部分多模態管線固定化後,都可以基於ASIC進行極致優化。

ASIC通常採用數據流架構 (Dataflow) 或張量處理單元等方式,對矩陣乘法、卷積、激活函數、注意力層等進行高度優化。一旦某些大模型架構在商用場景中趨於穩定,且推理調用量極大,則基於ASIC的專用定制硬件可以將單位能耗與單位成本做到大幅優於通用 GPU(通常可達 2~10 倍不等能效提升)。因此隨著推理端越來越聚焦成本與能效,AI ASIC 具備更大規模的配置前景,特別是在神經網路結構逐漸固化的常態化、大量化AI推理任務上。

就像大摩預測的那樣,長遠來看,兩者將和諧共存,中期左右AI ASIC市場份額有望大幅擴張。英偉達通用GPU將聚焦在複雜多變場景與前沿研究,ASIC 聚焦高頻穩定、大規模的AI推理負載以及一部分成熟穩定的固化訓練流程。

“公司正與大型雲計算客戶們合作開發定制化的AI晶片,我們目前有三家超大規模雲客戶,他們已經制定了自己的多代‘AI XPU’路線圖,計劃在未來三年內以不同速度部署。我們相信,到2027年,他們每家都計劃在單一架構上部署百萬級XPU叢集。”博通CEO陳福陽表示。這裡的XPU指代的是“擴展性強”的處理器架構,通常指代是除英偉達AI GPU之外的AI ASIC、FPGA以及其他的客製化AI加速器硬件。

巴克萊銀行在一份最新報告中預測,2025年英偉達、博通以及Marvell將成為人工智能半導體領域的領導者,而不是英偉達繼續壟斷AI芯片市場。巴克萊更是將博通的目標股價從205美元大幅上調至260美元。

華爾街另一大行美國銀行(Bank of America)的分析師團隊近日在報告中表示,2025年晶片股仍有可能是美股表現最亮眼的類股之一,美股芯片板塊的“AI晶片三巨頭”——即英偉達、博通以及Marvell均位列美國銀行的2025年“首選芯片股名單”。