Nvidia在GTC大會上展示未來計算平台,面臨工藝技術挑戰和數據中心轉型壓力
在本月的Nvidia GTC大會上,CEO黃仁勳不僅展示了下一代Blackwell Ultra處理器,還透露了未來兩代加速計算平台的大量細節。其中包括一個包含576個GPU的600kW機架級系統,以及計劃於2028年問世的以Richard Feynman命名的GPU系列。
Nvidia面臨的挑戰不只一個,而是好幾個,且基本上都不受其控制。工藝技術進步放緩,Nvidia的策略是盡可能擴大每個計算節點的矽片數量。目前,Nvidia最密集的系統使用其高速1.8TB/s NVLink結構將72個GPU整合到一個计算域中。計劃將GPU數量提升至每機架144個,最終達到576個。
性能與功耗的挑戰
Nvidia的Blackwell加速器性能比Hopper高出5倍,但需要兩倍的芯片數量、新的4位數據類型和500瓦以上的功率。以FP16為標準,Nvidia頂級規格的Blackwell芯片僅比GH100快1.25倍,密度為1,250 teraFLOPS,而密度為989。
到2027年,Nvidia預計隨著Rubin Ultra NVL576的首次亮相,機架功率將飆升至600kW。Rubin Ultra將延續趨勢,從兩個光罩限制芯片增加到四個。即使效率提高了約20%,黃仁勳預計台積電2nm仍將是一個熱門技術。
晶片 | 性能提升 | 功耗 |
---|---|---|
Blackwell | 5倍於Hopper | 500瓦以上 |
Rubin Ultra | 預計效率提高20% | 600kW機架 |
數據中心的轉型壓力
600kW機架對於數據中心運營商來說是一個極其令人頭痛的問題。冷卻兆瓦級超密集計算並不是一個新問題,但變化的是我們談論的不是每年少數幾個精品計算集群,而是數十個集群。
雲廠商似乎正在放緩他們的數據中心建設步伐。TD Cowen的報告顯示,微軟已經放棄了在美國和歐洲租賃價值2千兆瓦數據中心容量的談判,並且已經推遲和取消了其他數據中心的租賃。
Nvidia的大規模NVL72機架級系統承諾,推理工作負載的性能將達到其Hopper GPU的30倍或更高,訓練性能將達到其Hopper GPU的4倍。這種性能是以更密集的機架、更高的功耗和更多的廢熱產生為代價的。
微軟已經表示相信需要全新的數據中心設計,甚至在2024年詳細制定了此類設施的計劃。然而,讓新建數據中心的容量投入使用需要時間。關鍵部件和能源供應的短缺也對這一情況不利。
Nvidia在中國的業務也面臨不確定性。中國大陸和香港是Nvidia的第四大市場,佔其2025財年收入的約13%(即171億美元)。中國監管機構將出台先進晶片的能效規定,可能禁止中國客戶在建設或擴建數據中心時使用Nvidia的H20晶片。