FOREXBNB獲悉,有媒體引述知情人士透露的消息報道稱,全球AI業界無比期待的英偉達(NVDA.US)新一代AI GPU架構——“Rubin”架構,可能將提前六個月,即2025年下半年正式發布。雖然Blackwell架構AI GPU仍未大規模出貨且爆出面臨散熱問題,但英偉達似乎堅定加速其AI GPU發展路線圖,面對AMD、亞馬遜以及博通等AI晶片競爭對手發動的猛烈攻勢,這家“綠巨人”試著強化它在資料中心AI晶片市場的絕對主導地位。英偉達目前在該市場堪稱“壟斷”,佔據80%-90%份額。
儘管 Blackwell 架構AI GPU可能明年第一季才能在台積電、鴻海、緯穎以及緯創等眾多核心供應商齊心協力之下實現大規模量產,但是隨著谷歌、亞馬遜等雲端巨頭自研AI晶片浪潮席捲而來,英偉達現在比以往任何時候都更致力於在資料中心AI晶片市場中保持主導地位。對於英偉達股東們來說,他們也需要新的催化劑來推動英偉達股價向200美元發起衝擊。
包括OpenAI以及微軟在內的眾多AI業界領導者,以及摩根士丹利等華爾街投行們已經開始討論英偉達下一代架構Rubin的性能將如何強大。一些產業鏈分析師認為依托共同封裝光學(CPO)技術以及HBM4,加之台積電3nm以及下一代CoWoS先進封裝所打造的Rubin架構AI GPU堪稱“史無前例的性能”,有可能開啟AI算力全新紀元,競爭對手可能需要耗費數年時間來進行追趕。
根據產業鏈知情人士透露的消息,英偉達Rubin架構的產品線原定於2026年上半年推出,現已要求供應鏈開啟提前測試工作,力爭提前至2025年下半年正式推出。由於OpenAI、Anthropic、xAI以及Meta等人工智慧、雲端運算以及網路大廠們對於AI訓練/推理算力幾乎無止境的“井噴式需求”,迫使英偉達以更快速度推出性能更高、儲存容量更龐大、推理效率更強大且更節能的下一代AI GPU的研發進程。這家綠巨人試圖加快不同AI GPU架構之間的更新節奏。
雖然英偉達官方未進行回复,但是從記憶體晶片製造巨頭SK海力士(SK Hynix)上月初透露的可能提前生產交付HBM4的消息來看,關於Rubin訊息的真實性非常高。HBM透過3D堆疊儲存技術,將堆疊的多個DRAM晶片全面連接在一起,透過微细的Through-Silicon Vias(TSVs)進行資料傳輸,從而實現高速高頻寬的資料傳輸,使得AI大模型能夠24小時不間斷地更有效率地運行。
據了解,SK集團董事長崔泰源在11月初接受採訪時表示,英偉達執行長黃仁勳要求SK海力士提前六個月推出其下一代高頻寬儲存產品HBM4。作為英偉達H100/H200以及近期開始生產的Blackwell AI GPU的最核心HBM儲存系統供應商,SK海力士一直在引領全球記憶體晶片產能競賽,以滿足英偉達、AMD以及Google等大客戶們滿足對HBM儲存系統的爆炸性需求以及其他企業對於資料中心SSD等企業級儲存產品的需求,這些儲存級的晶片產品對於處理大量資料以訓練出愈發強大的人工智慧大模型以及需求劇增的雲端AI推理算力而言堪稱核心硬件。
在關於Rubin的最新消息出爐前,英偉達目前正處於“一年一代際”的AI GPU架構更新節奏中,這意味著該公司每年都會發布新一代架構的資料中心AI GPU產品,這就是為什麼Ampere、Hopper和Blackwell架構之間都有長達一年的間隔;然而,對於Rubin,這種情況可能會徹底改變。
知情人士並未提及英偉達為何提前推出Rubin的具體原因,只是將其歸類為商業舉措。然而,如果我們從供應鏈角度來看,Rubin預計將採用台積電的3nm工藝,以及儲存領域具有劃時代意義的HBM4,加上可能是全球首個採取CPO+矽晶圓封裝的資料中心級別AI晶片,這些最關鍵的核心環節要嘛已經開始準備——比如台積電3nm準備就緒、HBM4可能已經處於測試環節,要么已確定能夠實現量產,比如CPO封裝。因此,鑑於英偉達可能已經為Rubin配備了所有“工具”,黃仁勳可能認為在2026年發布Rubin不太合適。
根據英偉達在GTC揭露的產品路線,Blackwell升級版——“Blackwell Ultra”產品線,即“B300”系列的首次亮相,英偉達計畫在2025年中期發布該系列。因此,我們可能會看到Blackwell Ultra與Rubin發布的時間點非常靠近。目前發布策略尚不明確,但Wccftech以及The Verge的一些專業人士表示,英偉達可能將重點放在Rubin架構,將B300系列視為過渡產品。按照英偉達慣例,预计该公司很快会將发布更多更新,可能是在2025年國際消費電子展(CES)前後。
Blackwell已經非常強大! 但Rubin,或將開啟AI算力新紀元
Blackwell架構AI GPU系列產品,毫無疑問是當前AI算力基礎設施領域的“性能天花板”。在Blackwell出爐前,Hopper也一度被視為算力天花板,而在CPO以及3nm、相比於HBM3E性能大幅增強的HBM4,加之下一代CoWoS加持下,暫不考慮Rubin本身的基础架構升级,Rubin晶片性能可能已經強到無法想像。對於英偉達業績預期來說,Rubin或將推動華爾街大幅上調2026年基本面展望。
作為基準對標,Blackwell性能已經比Hopper強勁得多,在MLPerf Training基準測試中,Blackwell在GPT-3預訓練任務中每GPU性能比Hopper大幅提升2倍。這意味著在相同數量的GPU下,使用Blackwell可以更快完成模型訓練。對於Llama 2 70B模型的LoRA微調任務,Blackwell每GPU性能比Hopper提升2.2倍,這表明Blackwell在處理特定高負載AI任務時具備更高的效率。MLPerf Training v4.1 中,圖形神經網路以及Text-to-Image基準測試方面,Blackwell每GPU性能比Hopper分別提升2倍以及1.7倍。
根據知情人士披露的消息,以及摩根士丹利調查後的產業鏈報告,Rubin架構AI GPU 計畫採用台積電最新3nm 科技、CPO 封裝以及 HBM4;Rubin的晶片尺寸或將是Blackwell的近兩倍,Rubin可能包含四個核心運算晶片,是Blackwell架構的两倍。知情人士透露,3nm Rubin 架構预计将在2025年下半年進入流片階段,較英偉達之前預期時間提早半年左右。
根據目前披露出的消息來看,Rubin架構的最大亮點無疑是共同封裝光學(CPO)。Hopper與Blackwell互連技術更多仍依賴改進之後的 NVLink 以及晶片互連技術,而不是直接透過光學方式進行資料傳輸。
Rubin大概率是全球首個採取CPO+矽晶圓先進封裝的資料中心級別AI晶片,CPO所帶來的資料傳輸效率以及能耗效率,或將相比於NVLink 呈現指數級飛躍。在CPO封裝體系中,光學元件(如雷射器、光調製器、光纖和光探測器)直接与核心计算晶片(如GPU或CPU)封裝在一起,而不是将光学器件单独放置在晶片外部,這些光學元件的作用是傳遞光訊號,取代傳統的電訊號傳輸方式,进行晶片间数据的高速传输,大幅减少电子数据从晶片到光学接口之间的信号损耗,指數級提高資料吞吐量的同時還能大幅降低功耗。
透過光訊號的高速傳輸,CPO能提供比傳統電訊號傳輸更高的資料頻寬,這對於人工智慧、大數據以及高效能運算(HPC)應用中,尤其是在需要大規模並行計算時至關重要。因此CPO封裝被認為是英偉達Rubin架構AI GPU的核心亮點,它將為下一代AI和高效能運算提供極高的頻寬、低延遲和大幅提升的能效。在業界人士看來,由於CPO技術能夠更大程度解決資料傳輸速率和功耗問題,它的應用將進一步推動英偉達在資料中心AI晶片市場的領先地位。