來自中國的AI初創公司DeepSeek在周二最新公佈的原生稀疏注意力(Native Sparse Attention, 簡稱NSA)機制,不僅將大語言模型處理64k長文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全方位注意力機制模型,意味著AI大模型不久後有望在愈發精簡架構的基礎上性能也能實現大幅增長,AI訓練與推理成本則有望在DeepSeek R1基礎上繼續呈現大幅下降態勢。
繼開發出兼具“低成本”與“高性能”屬性的DeepSeek R1开源大模型震撼硅谷與华尔街之后,這家非常低調的中國AI初創公司繼續展示出基於革新“軟件工程技術”破局美國AI算力芯片封鎖的全新“極低成本AI大模型算力範式”。
值得投資者們注意的是,關於NSA機制的這份DeepSeek最新研究報告出爐後,英偉達、Marvell、台積電、世芯以及港股市場的中芯國際與華虹半導體等AI芯片產業鏈熱門股的股價並沒有因“AI訓練與推理成本大幅下行+計算效率激增”而出現類似1月27日的芯片股全線暴跌,反而其中一部分出現強勢上漲,尤其是港股芯片標的。
與AI密切相關的芯片股集體股價堅挺背後的核心邏輯,無疑在於市場並未像1月27日那樣定價AI训练與推理效率飙升带来的短中期AI芯片需求下滑預期,而是已經充分接納微軟CEO納德拉此前提到的“傑文斯悖論”——當技術革新大幅提高效率,資源消耗不僅沒有減少,反而激增,移植到人工智能算力領域則是AI大模型應用規模激增趨勢將帶來的史無前例AI推理算力需求。
這也是為何華爾街金融巨頭摩根士丹利在最新研報中,重申對於AI芯片兩大核心技術路線——AI GPU與AI ASIC核心股票標的的強烈看漲預期,並且強調亞馬遜、谷歌與微软等大型科技公司坚持AI資本支出大幅擴張也是基於未來應用端AI算力需求激增,尤其是雲端AI推理算力需求激增。
也就是說,DeepSeek雖然徹底掀起AI訓練與推理層面的“效率革命”,推動未來AI大模型開發向“低成本”與“高性能”兩大核心聚焦,而不是瘋狂燒錢用“大力出奇蹟”方式訓練人工智能大模型。但是,AI應用滲透至全球各行各業的天量級AI推理算力需求意味著,AI芯片需求的未來仍將是星辰大海。
據了解,DeepSeek團隊提出的原生稀疏注意力機制(NSA)通過動態分層的稀疏策略,將傳統全密集Attention(O(n²)複雜度)的計算負擔大幅降低。NSA採用了三個並行分支(壓縮注意力、選擇注意力、滑動窗口注意力),並通過門控融合各分支輸出,實現了訓推一體化的高效計算。這一創新設計不僅使長文本處理任務中推理速度最高可提升11.6倍,还显著降低了训练时对愈发庞大AI GPU算力基礎設施的依賴程度,從根本上改善了AI算力資源的利用率。
相比之下,Facebook的Llama、OpenAI的o3mini和谷歌Gemini則各自採用了不同的近似計算策略或硬件調優策略,這些差異值決定了在長序列處理、算力基礎設施的能耗優化和AI部署靈活性方面,DeepSeek NSA機制具有強大得多的競爭優勢。
隨著DeepSeek重磅推出的DeepSeek R1繼續風靡全球,以及DeepSeek公司的最新研究顯示的NSA機制在Transformer底層實現AI大模型革命性訓練與推理效率提升,引發全球AI大模型開發者追隨這種“極低成本AI大模型算力範式”,進而全面驅動AI應用軟件(尤其是生成式AI軟件與AI代理)向全球各行各業加速滲透,徹底革新各業務場景的效率並大幅提高銷售額,AI芯片需求在未來可能呈現指數級增長而不是此前市場所預期的“DeepSeek衝擊波”引發AI芯片需求斷崖式下滑。
AI芯片兩大路線——AI GPU與AI ASIC,大摩都相當看好
摩根士丹利在研報中指出,在特朗普政府支持下所開啟的星際之門項目(即Stargate專案),以及DeepSeek R1大模型橫空出世之後中國各行各業積極接入與部署DeepSeek大模型所帶來的龐大AI推理算力需求推動之下,AI GPU與AI ASIC需求前景展望可謂極度樂觀。
大摩在這份研報中重申對於AI GPU絕對領軍者英偉達(NVDA.US)的“增持”評級,以及對於中國台灣的封測巨頭京元電子(KYEC)、AI ASIC領軍者世芯電子(Alchip)與創意電子(GUC),全球芯片代工之王台積電(TSMC)的“增持”評級。
關於AI GPU,大摩表示,DeepSeek推動中國大型科技企業的AI資本支出激增。大摩團隊從台灣半導體供應鏈獲悉,2025年第一季度大約75萬顆Hopper架構英偉達AI晶片——集中於專為中國市場推出的H20,將由京元電子(KYEC)完成測試。
大摩表示,受NVL72組裝瓶頸影響,英偉達的客戶們正積極轉向採用B200 AI芯片的HGX伺服器(8-GPU架構)。例如,Coreweave與xAI等CSP客戶要求ODM廠商在單機架內部署8台HGX伺服器(即總計64顆B200 AI GPU)。大摩預計B200芯片庫存可被消化,無需下調台積電CoWoS產能預測,並且預計2025年下半年,採用新型連接器設計的GB300 Cordelia模块将显著改善系统良率。
大摩的半導體供應鏈調查還顯示,鑑於Blackwell與Hopper需求強勁,英伟达今年上半年有望实现與市场乐观预期相符的业绩。大摩表示,鑑於英伟达AI GPU仍然需求無比強勁,維持該機構對於CoWoS需求46.5萬單元的樂觀預期,但假設更多CoWoS產能將來自台積電CoWoS-L先進封裝。
關於ASIC,大摩表示,北美金融市場的ASIC投資熱度邊際過熱,相比之下亞洲地區的ASIC廠商們在定制化芯片領域具備估值優勢,且與亞馬遜AWS等大廠關聯的ASIC項目有望帶來強勁業績。大摩表示,從供應鏈觀察到亞馬遜AWS正將其對於台積電的CoWoS產能預訂從Trainium2(由Marvell代工)逐步轉向Trainium3(由世芯進行代工)。
在1月下旬,OpenAl、軟銀聯合甲骨文宣布了一項名為“星際之門”(Stargate)的超大規模AI基礎設施建設計劃,初期投資額為1000億美元,4年之內最高可擴大至5000億美元,集中於新建設以及擴建AI數據中心。“星際之門”的5000億美元投资计划远超市场预期,甚至被一些媒體譽為“新時代的曼哈頓計劃”。重返白宮的美國總統特朗普表示,美國政府將通過緊急聲明為“星際之門”計劃提供所有便利,尤其是滿足必要的全部電力/能源需求,甚至迫切需要的土地/建築許可。
隨著DeepSeek引領的“低成本算力新範式”席捲全球,AI訓練與應用推理端AI成本愈發下行,同時全面驅動AI應用軟件(尤其是生成式AI軟件與AI代理)向中國各行各業加速滲透,有望徹底革新各業務場景的效率並大幅提高SaaS軟件以及雲計算銷售額,而這無疑將帶來無比龐大的雲端AI推理算力需求。DeepSeek接入微信之後經常見到DeepSeek深度思考無法響應客戶需求,驗證了當前中國市場的AI算力基礎設施遠遠無法滿足AI算力需求。
AI芯片需求的核心支柱——美國科技巨頭們巨額支出+星際之門
大摩在研報中指出,美國科技巨頭們在2025年的巨額資本支出預期,以及“星際之門”項目計劃未來四年投資5000億美元,其中1000億美元将于当前部署,使得英偉達AI GPU,以及ASIC廠商們所推出的AI ASIC需求仍然非常強勁,加之DeepSeek大模型加速滲透至中國各行各業所帶來天量AI推理需求,將點燃AI芯片產業鏈的新一輪需求狂潮。
大摩上調2025年北美雲計算大廠們整體支出預期,增速從此前的同比29%預期上調至32%,也就是說2025年北美前十大雲服務巨頭資本支出預計將達3500億美元,主要基於雲端AI推理算力需求大幅擴張趨勢。大摩通過半導體供應鏈觀察到,“星際之門”項目的部分GB200 NVL72訂單通過戴爾承接,潛在訂單可能通過甲骨文及其亞洲ODM/OEM夥伴,比如FII來執行。
微軟、亞馬遜、谷歌以及Meta,乃至生成式AI領軍者OpenAI,從這些巨頭近期財報或者行業動態看出,無一例外都在聯手博通或者Marvell自研AI ASIC晶片,用於海量推理端AI算力部署。因此AI ASIC未來市場份額擴張之勢有望大幅強於AI GPU,進而趨於份額對等,而不是當前AI GPU一家獨大局面——佔據AI晶片领域高达90%份額。
但是,這種轉變不是一蹴而就,在當前AGI仍處於研發進程,AI GPU的靈活性與通用性仍然是AI訓練最倚重的專屬能力。超大規模的AI模型,比如GPT家族與LIama開源家族,在“研究探索”或“快速迭代”階段對算子靈活性、網絡結構可變性的需求依舊很高——這是通用 GPU 仍佔據優勢的主要原因。
在谷歌與Meta業績電話會議上,皮查伊以及扎克伯格均表示將加大力度攜手晶片廠商博通推出自研AI ASIC,這兩大巨頭的AI ASIC技術合作夥伴都是定制化晶片領域領軍者博通,比如穀歌聯手博通打造的TPU(Tensor Processing Unit)就是一種最典型的AI ASIC。Meta此前與博通共同設計了Meta的第一代和第二代AI訓練/推理加速處理器,預計Meta與博通將在2025年加快研發Meta下一代AI晶片 MTIA 3。獲得微軟巨額投資以及達成深度合作的OpenAI去年10月表示,將攜手博通開發OpenAI首款AI ASIC晶片。
隨著大模型架構逐漸向幾種成熟範式收斂(例如標準化的 Transformer 解碼器、Diffusion 模型流水線),ASIC可以更容易地吃下主流推理端算力負載。並且某些雲服務商或行業巨頭會深度耦合軟件棧,讓 ASIC兼容常見的網絡算子,並提供優秀的開發者工具,這將加速 ASIC 推理在常態化/海量化場景中的普及。
展望未來算力前景,英偉達AI GPU可能更多專注在超大規模前沿探索性的訓練、變化極快的多模態或新結構快速試驗,以及 HPC、圖形渲染、可視分析等通用算力。AI ASIC則聚焦於深度學習特定算子/數據流做極致優化,也就是擅長穩定結構推理、批量高通量、高能效比。比如,如果一家云平台的AI工作負載中大量使用針對 CNN/Transformer 中常見算子(比如矩陣乘法、卷積、LayerNorm、Attention等),大多AI ASIC會針對這些算子做深度定制;圖像識別(ResNet系列、ViT)、基於Transformer的自動語音識別(Transformer ASR)、Transformer Decoder-only、部分多模態流水線固定化後,都可以基於ASIC進行極致優化。
就像大摩在此前的一份研究中預測的那樣,長遠來看,兩者將和諧共存,中期左右AI ASIC市場份額有望大幅擴張。英偉達通用GPU將聚焦於復雜多變場景與前沿研究,ASIC 聚焦高頻穩定、大規模的AI推理負載以及一部分成熟穩定的固化訓練流程。