在2025年的CES展會上,Nvidia (NVDA.US)宣布與聯發科合作,共同研發了一款價值3000美元的新型桌上型電腦,這款電腦配備了基於Arm架構的全新精簡版Grace CPU和Blackwell GPU超級晶片。這款新系統被命名為“Project DIGITS”,需注意不要與Nvidia的深度學習GPU訓練系統DIGITS相混淆。該平台為AI和HPC市場帶來了一系列創新功能。
Project DIGITS搭載了全新的Nvidia GB10 Grace Blackwell超級晶片,該晶片擁有20個Arm核心,旨在提供“千萬億次”(FP4精確度)的GPU-AI運算效能,適用於原型設計、微調和運行大型AI模型。(在此,一個强制性浮点解释器可能会有所帮助。)
自2006年G8x系列顯示卡發布以來,Nvidia一直致力於為整個GPU系列提供CUDA工具和函式庫。低成本客戶顯示卡能夠進行CUDA開發,這有助於建立一個充滿活力的應用程式生態系統。由於高性能GPU的成本和稀缺性,DIGITS專案有望實現更多基於LLM的软件開發。與低成本GPU一樣,桌面上運行、配置和微調開放式變壓器模型(例如llama)的能力对開發人员来说具有吸引力。例如,DIGITS系統提供的128GB記憶體有助於克服許多低成本消費級顯示卡上的24GB限制。
規格不足
新款GB10超級晶片採用了Nvidia Blackwell GPU,配備了最新一代CUDA核心和第五代Tensor核心,透過NVLink-C2C晶片到晶片互連技術連接到高性能Nvidia Grace類別CPU,其中包括20個節能的Arm核心(十個Arm Cortex-X925和十個Cortex-A725 CPU核心)。
儘管沒有具體的規格信息,但GB10的GPU端被認為性能低於Grace-Blackwell GB200。需要明確的是,GB10並不是分檔或雷射修剪的GB200。GB200超級晶片擁有72個Arm Neoverse V2核心和两個B200 Tensor Core GPU。
DIGITS系統的核心特性是CPU和GPU之間統一、一致的128GB(LPDDR5x)記憶體。这种記憶體大小在GPU上運行AI或HPC模型時打破了“GPU記憶體障碍”;例如,80GB Nvidia A100的當前市場價格從18,000美元到20,000美元不等。有了統一、一致的記憶體,CPU和GPU之間的PCIe傳輸也被消除了。下图中的渲染显示記憶體量是固定的,使用者無法擴充。該圖還顯示ConnectX網路(乙太網路?)、Wifi、藍牙和USB連線可用。
該系統還提供了高達4TB的NVMe儲存。在電源方面,Nvidia提到了標準電源插座。雖然沒有具體的電源要求,但尺寸和設計可能會提供一些線索。首先,與Mac mini系統一樣,小尺寸(見圖2)表示產生的熱量一定不會那麼高。其次,根據CES展廳的圖像,沒有風扇通風口或切口。機殼的正面和背面似乎有一種海綿狀的材料,可以提供氣流,並可能充當整個系統的過濾器。由於散熱設計顯示功率,功率表明性能,因此DIGITS系統可能不是一款為達到最大效能(和功耗)而調整的尖叫器,而是一款具有優化記憶體架構的涼爽、安靜、高效率的AI桌上型系統。
如上所述,該系統非常小。下圖提供了一些鍵盤和顯示器的視角(沒有顯示電纜。根據我們的經驗,其中一些小型系統可能會因電纜重量而從桌面上拉下來。)
桌面上的人工智慧
Nvidia報告稱,開發人員可以運行多達2000億個參數的大型語言模型,以增強AI創新。另外,使用Nvidia ConnectX網路,兩台Project DIGITS AI超級電腦可以連接起來,運行多達4050億個參數的模型。借助Project DIGITS,使用者可以使用自己的桌面系統開發和運行模型推理,然後在加速雲端或資料中心基礎架構上無縫部署模型。
Nvidia創辦人兼執行長黃仁勳表示:“AI將成為各行各業中每一種應用的主流。借助Project DIGITS,Grace Blackwell超級晶片將惠及數百萬開發者。將AI超級電腦放在每位資料科學家、AI研究人員和學生的桌子上,將使他们能够参与并塑造AI時代。”
這些系統不適用於訓練,而是設計用於在本地運行量化的LLM(減少模型權重的精度大小)。Nvidia引用的1 petaFLOP性能數字適用於FP4精確度權重(四位,或16個可能的數字)許多模型可以在此級別充分運行,但量化可以增加到FP8、FP16或更高,以獲得更好的結果,具體取決於模型的大小和可用內存。例如,對Llama-3-70B模型使用FP8精確度權重需要每个参数一个字节或大约70GB的記憶體。將精度減半到FP4會將其減少到35GB的記憶體,但增加到FP32將需要140GB,這比DIGITS系统提供的記憶體还要大。
有人用HPC集群嗎?
可能不為人所知的是,DIGITS並不是第一款桌邊Nvidia系統。2024年,GPTshop.ai推出了一款基於GH200的桌边系統。HPCwire提供了包括HPC基準測試在內的報道。與DIGITS項目不同,GPTshop系統在桌边机箱中提供了GH200 Grace-Hopper超級晶片和GB200 Grace-Blackwell超級晶片的全部功能。性能的提升也伴隨著更高的成本。
將DIGITS專案系統用於桌面HPC可能是一種有趣的方法。除了運行更大的AI模型之外,整合的CPU-GPU全域記憶體對HPC應用程式也非常有益。請考慮最近HPCwire的一篇關於僅在英特爾兩顆Xeon 6 Granite Rapids處理器(無GPU)上運行的CFD應用程式的故事。根據作者Moritz Lehmann博士的說法,模擬的促成因素是他能夠用於模擬的內存量。
同樣,許多HPC應用程式不得不想辦法繞過常見PCIe連接視訊卡的小型記憶體域。使用多張卡或MPI有助於擴展應用程式,但HPC中最有利的因素始終是更多內存。
當然,需要基準測試來確定DIGITS項目是否完全適用於桌面HPC,但還有另一種可能性:“用這些建構一個Beowulf叢集”。這句話通常被認為是個玩笑,但對於DIGITS項目來說可能更嚴肅一些。當然,叢集是用服务器和(多個)PCIe連接的GPU卡建的。然而,一個小型、中等功率、完全整合的全域內存CPU-GPU可能會變成更平衡、更有吸引力的叢集构建块。還有一個好處:它們已經運行Linux並具有內建的ConnectX網路。
本文轉自“半導體產業觀察”微信公眾號;FOREXBNB編輯:陳筱亦。