FOREXBNB獲悉,2月12日,東方港灣公開發文“回應”投資者的詢問。但斌認為,DeepSeek的成果會增加全球AI算力的需求,而非減弱。市場最大的誤解,是從根本上把算法、算力和數據三者進行對立;實際上,演算法、數據和算力三者之間,是一種“協同關係”。中美AI應用會湧現各種投資機會,而大模型企業的商業模式會繼續飽受挑戰,只有持續保持前沿模型領先,才能維持巨大的用戶數量和定價優勢,以彌補前期高額的探索成本。這種難度現在也變得越來越大了。

時值歲末,中國量化基金團隊Deepseek,連續發布了V3底座大模型以及R1推理大模型,以低一個數量級的推理成本和匹敵Openai最強模型的性能,震驚世界。

東方港灣收到了許多投資者的詢問,最受關注的問題有三個:

1)中國團隊在算力卡脖子的情況下,仍能研發出全球領先的AI大模型,是否說明了今後AI的進步不需要算力?

2)Deepseek團隊通過修改PTX指令集,優化了GPU的使用,是不是意味著繞過CUDA的壁壘,今後使用國產芯片可以暢行無阻了。

3)中國模型的降本與平權,會帶來什麼投資機會與風險?=

對於第一個問題,東方港灣的觀點是:Deepseek的成果會增加全球AI算力的需求,而非減弱。

首先,市場最大的誤解,是從根本上把演算法、算力和數據三者進行對立,誤認為演算法的創新進步,是對算力和數據形成了“替代和競爭”。而實際上,演算法、數據和算力三者之間,是一種“協同關係”。

人工智能過去70年的發展,三個要素都須同時取得進步;任一要素被卡住了,人工智能都會止步不前:第一波人工智能浪潮止步於算法的缺陷,第二波浪潮止於算力的不足。而目前第三波浪潮,得益於算法、算力和大數據三者,在互聯網時代得到了空前的飛躍。

同樣的,三要素中任意一個的發展,都會帶動另外兩者的價值量提升。就像一家人,父親的事業成功,也會為孩子的成長和妻子的創業帶來更多機會。假設過去算法低效時,單位芯片在一個用例上只能服務10個用戶;現在算法提效了,同一芯片可以服務100人。該芯片如果不提價,其價值量肯定是翻了10倍,而不是變得更低。如果一個商品的價值量提升了10倍,而價格不變,那麼需求一定是上升的,這是經濟學常識。

市場之所以錯把算法與算力對立起來,很可能是來自當下中美的競爭關係。當中國模型企業在算力資源受限的情況下,工程算法取得了突破(工程的本質就是“突破限制”),市場心理便很容易將“中美競爭”映射到算法算力競爭之上。加上“東方力量的神秘感”,華爾街很容易從心理上將“意外”的情緒無限放大。

其次,成熟AI模型的“降本與平權”已是過去2年大趨勢。25開年Deepseek作為“追趕者”送出的降本平權大禮包,除了“來自中國”和“開源”這2個意外情緒點之外,也在這一趋势内,這是走向“應用普及”的必經之路。而成熟模型的降本與前沿模型的探索是兩碼事,想爭做AI時代模型的領頭人,所需算力和資源都不是小數,這也是除了Openai以外許多巨頭的野心。

世界上任何一種技術的發展,基本遵循著“創新-跟隨-降本”的發展模式。前沿的“探索者”會花重金和時間進行實驗探索,最終找到一個有效果的技術方案,並將其商品化;緊接著,社會會出現一大批“跟隨者”,沿著探索者的思路去複現其產品,並在工程上進一步降本優化。這種成本優化的思路又會回到探索者那裡進行整合和降本,雙方相互學習,相得益彰。我們所熟知的領域裡,包括了創新药与仿制药,特斯拉與中國電動車,台積電與其他代工廠,還有大模型領域,皆是如此。

目前在大模型的絕大多數能力領域裡(如聊天機器人、實時多模態模型、邏輯推理模型等),Openai都暫時充當了探索者的角色,其身後是北美四大模型(Gemini、Claude、Xai、Llama)的追趕;而緊隨北美企業的,是中國互聯網大廠(如字節豆包、阿里千問、百度文心、騰訊混元)與一眾模型創業公司(如Deepseek、智譜GLM、MiniMax海螺、月之暗面Kimi等)的追趕脚步;而中美之外,其他國家鮮有追趕者。

下圖很好地描述了過去兩年,中美在Openai開闢的“GPT4和o1”這兩條賽道上的降本速度:自2023年4月推出GPT4以來,大量追趕者在1.5年的時間裡,將同性能模型的成本降低了1000倍——3個數量級;而自2024年9月推出o1版本系列以來,追趕者DeepseekR1在3個月內將成本拉低了27倍——1個數量級,而追趕者Gemini2.0flashthinking更是在同一時間將成本拉低了100倍——2個數量級。所以我們說“平權和降本”是AI時代目前最大的一條時代脈絡,Deepseek也沒有逃脫這一趨勢。人們沉浸於Deepseek的震驚當中,久久不能釋懷,甚至連谷歌更為誇張的降本效果都無人談及。

但斌回應投資者“質疑”:DeepSeek出現會增大全球算力需求而非減弱 - 圖片1

追趕者之所以能比探索者實現幾個數量級的降本,在上期觀點中也簡單介紹過,方法非常多,拆解Deepseek技術報告的文章也解釋得很詳盡,我們不做過多贅述。而除了工程創新、數據蒸餾以及隨時間不斷下降的算力成本以外,探索者與追趕者之間,最大區別來自“探索的成本”。就好比創新藥和仿製藥之間,實驗與臨床是最大的成本差別。Deepseek與美國的其他追趕者都一樣,若想在時代的最前沿“探路”,不甘只做追隨者,所付出的成本將比現在大上許多倍。

再者,隨著AI成本的大幅下降,AI應用普及帶來的推理需求才是算力的主場。我們在年度思考中對比過o1模型的推理成本,在每百萬token55美金的輸出價格下,Agent應用使用推理模型幾乎是寸步難行。而短短不到一個月,推理模型成本被追趕者的工程優化降低了100倍,預期的Agent應用生態,在以極快的速度向我們走來。

Deepseek帶火了一個概念——傑文斯悖論,指的是當資源使用效率提高後,資源的消耗總量不會下降,反而會增加的經濟現象。該理論最早於19世紀應用於煤炭的消耗問題。當瓦特改進蒸汽機,提高了煤炭利用率後(單位動力耗煤量大幅下降了75%),燒煤蒸汽機被更廣泛地應用到工廠、鐵路和船舶上,反而加速了煤炭消耗總量,也提升了煤炭價格。同樣的情況,也發生在當汽車燃油效率提升(每公里耗油更少了),帶來的行駛里程和總油耗的大幅增長,以及LED燈節能導致更長開燈時間和更多地方安裝燈光,總體耗電量不降反升的情況。當一項技術未被大面積採用之前,其單位資源消耗量的下降,反而會促進整體資源消耗總量的上升。同樣的情況,也會在AI模型的應用身上發生,因為AI時代才剛剛開幕。

我們可以再回顧一次“人均擁有算力”的概念:如果AI技術未來注定要普及百行千業,影響全球80億人口,以當前全球AI算力部署4500ExaFlops來計算,人均擁有算力0.6Tops,方興未艾。一輛自動駕駛汽車所需晶片就在500Tops以上,25年特斯拉最新FSD晶片AI5的算力更是預計高達1500Tops以上。AI算力資源消耗總量還有極大的上漲空間,前提就是算力資源的使用效率需要大幅地提升。

實際上,自Deepseek發布以來,我們看到算力租賃Spot市場價格(非長單即期價格,佔比小),出現了快速的上漲,許多AI應用公司都開始採用Deepseek模型作為測試方案(下圖為Semi關於亞馬遜的GPU租賃價格),導致了算力短缺。而Deepseek的官網也因為用戶數快速上升到4000萬(豆包才6000萬),頻繁出現崩潰和拒絕回复。同時,本月發布財報的微軟、Meta、谷歌和亞馬遜,都在25年AI設備的資本開支上再度加碼升級,為接下來的推理應用市場做足準備。

但斌回應投資者“質疑”:DeepSeek出現會增大全球算力需求而非減弱 - 圖片2

對於第二個問題,東方港灣的觀點是:CUDA並未被繞開,壁壘反而被增強。

DeepseekV3的論文中描述到,為了優化英偉達芯片的使用效率,團隊不滿足於CUDA的高級語言編輯,直接在底層編輯PTX指令集,對H800芯片中的流處理器進行通訊任務分配的修改,從而一定程度提高了全互聯的通訊效率和穩定性。很多人看到這裡,會認為Deepseek沒有使用CUDA軟體,而是用PTX汇编语言對GPU進行功能修改,因此團隊具備能力繞過CUDA,使用彙編語言在其他廠商的芯片上去複現模型的訓練。這是非常大的誤解。

首先解釋下什麼是PTX。英偉達芯片在頂層應用場景中覆蓋廣泛,涉及遊戲圖形、自動駕駛、大語言模型和科學模擬等多個領域。每個領域的具體任務若要利用GPU進行加速計算,都需要配套的軟件庫支持。例如游戲中的OptiX光線追踪加速,大語言模型加速推理的TensorRT-LLM,等等。另一方面,英偉達芯片的底層硬件設計,也從過去的Pascal、Volta架構,到如今廣為人知的Ampere、Hopper和Blackwell,架構不断升级,涵蓋製程工藝、計算精度、指令集複雜度等多個方面。所以,軟件和硬件都在不斷迭代和發展,這也帶來了兼容性問題。開發者往往會擔心,今天设计的软件在未来是否仍能适配更新的芯片架構。為了解決這一問題,英偉達設計了一套專用的“中間表示層”(即PTX)來連接軟件與硬件。無論軟件和硬件如何升級變化,代碼只需通過PTX進行轉譯,即可适配不同架構的GPU,並生成相應的機器執行碼。這就像中國和歐洲的商貿往來,兩地的人使用多種不同語言。如果有一個精通中歐語言的美國翻譯作為中介,就無需讓每位中國商人都學習所有歐洲語言,大家直接用英語溝通即可。

PTX在計算領域的作用,就類似於這個“通用翻譯層”,翻譯上層CUDA軟件的高級語言,成為中間表示,然後再轉化成英偉達顯卡可以理解的SASS語言(這部分是保密的)。為了增強CUDA開發者對GPU硬件的適配能力,英偉達開放了PTX的編輯權限,使開發者不僅可以編寫CUDA代碼,還可以直接調整PTX層,以优化代碼在不同GPU架構上的執行效率。這個過程可以類比為:CEO(CUDA代碼)將任務交給市場部主管(PTX),主管再細化任務並最終分配給各個銷售人員(SM流處理器)。如果CEO認為主管的分配方式不合理,還可以直接介入對任務分配進行調整,提升並行任務的執行效率。

所以,Deepseek能夠使用PTX(全稱為:並行計算任務線程的執行)進行任務執行的優化,也是英偉達架構的“可編輯性”所允許的。英偉達經常會吸收開發人員編輯PTX的創新工程方法,反過來優化官方的CUDA算子,這也是CUDA生態的反哺優勢。而AMD、華為、寒武紀的芯片,雖然也有這種中間表達層(IR碼),但其IR碼是不可编辑的。

弄清以上原理之後,我們可以理解Deepseek使用PTX進行硬件的任務執行優化,非但沒有繞過CUDA,反而是在加強和反哺CUDA生態。

首先,PTX就是CUDA架構的一部分。CUDA不只是指軟件,還包括了PTX和底層的硬件架構,全稱是“計算和設備的統一架構”。正是這種緊密耦合的軟件-硬件協同架構,使得CUDA在GPU計算的快速迭代過程中,仍能保持高效兼容性和優化能力。PTX本質上是一種中間表示(IR),它是CUDA代碼的另一種表達方式而已。

其次,PTX僅能被英偉達GPU解析和執行。用戶編輯PTX指令,相當於在CUDA生態系統中採用更底層的方式進行開發和優化,以更高效地適配和利用英偉達的GPU硬件架構,而不是繞開或超越其架構限制。PTX指令集是專門為英偉達GPU設計的,並不適用於其他廠商的GPU或計算架構,無法直接移植到非英偉達芯片之上。

再者,DeepSeek可以編輯PTX,是因為英偉達開放了PTX指令級優化的權限,而其他芯片(如华为昇腾、AMDGPU、GoogleTPU)的中間表示層(IR)則對外開放程度較低,開發者通常無法直接編輯底層指令集。

總而言之,要完全繞開CUDA,有兩種主要路徑:要么在高級編程語言層面,重新設計一整套覆蓋多個行業的GPU計算加速庫和開發框架,這需要大量時間、資源以及行業生態的支持;要么嘗試將CUDA代碼編譯成PTX以外的IR代碼,以適配不同廠商的GPU硬件架構,但這會受到兼容性和優化的限制。例如,AMD正在通過HIP轉換器,將CUDA代碼迁移到AMDGPU上,仍然存在性能損失和適配成本。這類似於在蘋果電腦上運行Windows系統——雖然技術上可行,但性能、兼容性和體驗通常比原生環境差。除此之外,幾乎沒有更好的替代方案。

對於第三個問題,東方港灣的觀點是:中美AI應用會湧現各種投資機會,而大模型企業的商業模式會繼續飽受挑戰。

Deepseek以一己之力,短短一個月為全國人民做了一次“AI科普”,並在模型能力和推理成本上追平甚至超越了大多數美國模型。Deepseek更重要的貢獻在於發現了一種高效的方法,即利用經過強化學習訓練並具備推理能力的大模型進行蒸餾,從而生成包含“思維鏈”的樣本數據,並對小模型進行直接的監督微調。相比於直接對小模型進行強化學習,這種方式能更有效地複現大模型的推理能力。因此,在R1模型發布後,全球企业与高校迅速掀起了基于思維鏈数据对小模型进行微调的复现工程,使得模型推理能力在Deepseek體系之外也得到了快速復制和擴散。推理模型的平權之路猛然加速。因此,我們在美國看到的AI應用機會,同樣將在中國市場廣泛落地。

唯一需要注意的是,中美AI之間的算力差異,或因算力管制的升級而繼續擴大,例如英偉達H20芯片遭到禁運。Deepseek等一眾模型已經在國產芯片上做了適配,但國產芯片在架構、軟件加速庫、集群能力上仍然存在短板,會對於AI產品的推理服務質量產生影響。當更多用戶同時使用更多種類AI應用時,推理延遲和服務器繁忙的情況可能都會是常態。

而就在R1發布不久,Openai也如期發布了o3模型,並提供了免費試用。o3的能力相對o1又有了質的飛躍,Openai暫時保住了“領先者”地位。但在“探索者與追趕者”的遊戲中,如果探索者持續創新的速度,跟不上追趕者降本複現的速度,探索者前期的成本將入不敷出,商業模式沒法實現閉環。而如果追趕者因為“專利壁壘”或“網絡效應”等原因無法復現,或者探索者能夠持續創新保持領先,探索者就能在最前沿的產品上保持溢價的定價能力,同時在被追上的次代產品上做低價壓制,保證了商業模式的合理性,就像台積電在工藝製程上所採取的商業策略一樣。但在大模型領域,即没有網絡效應也没有专利保护,Openai或其他希望成為領頭羊的模型企業,只有持續保持前沿模型領先,才能維持巨大的用戶數量和定價優勢,以彌補前期高額的探索成本。這種難度現在也變得越來越大了。

以上是東方港灣對這三個問題的主要觀點。

2025注定是一個市場波動率很大的年份。但在對投資的細枝末節進行梳理之後,我們還是要回到投資的主線上來。

在AI的時代脈絡上,時代車輪在明顯地加速駛進。同時,我們也要看到,在高波動率的同時,2025年的美股市場也預計將迎來超過2萬億美元的資金流入,為市場估值和穩定性提供支撐。企業回購預計將達到1萬億美元,通過減少流通股數量和提高每股收益(EPS)來增強投資者信心,尤其是科技巨頭將繼續加大回購力度。

而標普500企業的分紅總額預計將達到6000億美元,因其穩定性和可預測性吸引了長期投資者,尤其是養老金和401(k)賬戶。

此外,養老金和長期投資賬戶預計將貢獻超過4000億美元的資金流入,這些資金通常流向被動管理的基金,如標普500ETF,為市場提供穩定的流動性。