在2025年的CES展会上,Nvidia (NVDA.US)宣布与联发科合作,共同研发了一款价值3000美元的新型台式机,这款电脑配备了基于Arm架构的全新精简版Grace CPU和Blackwell GPU超级芯片。这款新系统被命名为“Project DIGITS”,需注意不要与Nvidia的深度学习GPU训练系统DIGITS相混淆。该平台为AI和HPC市场带来了一系列创新功能。
Project DIGITS搭载了全新的Nvidia GB10 Grace Blackwell超级芯片,该芯片拥有20个Arm核心,旨在提供“千万亿次”(FP4精度)的GPU-AI计算性能,适用于原型设计、微调和运行大型AI模型。(在此,一个强制性浮点解释器可能会有所帮助。)
自2006年G8x系列显卡发布以来,Nvidia一直致力于为整个GPU系列提供CUDA工具和库。低成本客户显卡能够进行CUDA开发,这有助于构建一个充满活力的应用程序生态系统。由于高性能GPU的成本和稀缺性,DIGITS项目有望实现更多基于LLM的软件开发。与低成本GPU一样,桌面上运行、配置和微调开放式变压器模型(例如llama)的能力对开发人员来说具有吸引力。例如,DIGITS系统提供的128GB内存有助于克服许多低成本消费级显卡上的24GB限制。
规格不足
新款GB10超级芯片采用了Nvidia Blackwell GPU,配备了最新一代CUDA核心和第五代Tensor核心,通过NVLink-C2C芯片到芯片互连技术连接到高性能Nvidia Grace类CPU,其中包括20个节能的Arm核心(十个Arm Cortex-X925和十个Cortex-A725 CPU核心)。
尽管没有具体的规格信息,但GB10的GPU端被认为性能低于Grace-Blackwell GB200。需要明确的是,GB10并不是分档或激光修剪的GB200。GB200超级芯片拥有72个Arm Neoverse V2核心和两个B200 Tensor Core GPU。
DIGITS系统的核心特性是CPU和GPU之间统一、一致的128GB(LPDDR5x)内存。这种内存大小在GPU上运行AI或HPC模型时打破了“GPU内存障碍”;例如,80GB Nvidia A100的当前市场价格从18,000美元到20,000美元不等。有了统一、一致的内存,CPU和GPU之间的PCIe传输也被消除了。下图中的渲染显示内存量是固定的,用户无法扩展。该图还显示ConnectX网络(以太网?)、Wifi、蓝牙和USB连接可用。
该系统还提供了高达4TB的NVMe存储。在电源方面,Nvidia提到了标准电源插座。虽然没有具体的电源要求,但尺寸和设计可能会提供一些线索。首先,与Mac mini系统一样,小尺寸(见图2)表明产生的热量一定不会那么高。其次,根据CES展厅的图像,没有风扇通风口或切口。机箱的正面和背面似乎有一种海绵状的材料,可以提供气流,并可能充当整个系统的过滤器。由于散热设计表明功率,功率表明性能,因此DIGITS系统可能不是一款为实现最大性能(和功耗)而调整的尖叫器,而是一款具有优化内存架构的凉爽、安静、高效的AI桌面系统。
如上所述,该系统非常小。下图提供了一些键盘和显示器的视角(没有显示电缆。根据我们的经验,其中一些小型系统可能会因电缆重量而从桌面上拉下来。)
桌面上的人工智能
Nvidia报告称,开发人员可以运行多达2000亿个参数的大型语言模型,以增强AI创新。此外,使用Nvidia ConnectX网络,两台Project DIGITS AI超级计算机可以连接起来,运行多达4050亿个参数的模型。借助Project DIGITS,用户可以使用自己的桌面系统开发和运行模型推理,然后在加速云或数据中心基础设施上无缝部署模型。
Nvidia创始人兼首席执行官黄仁勋表示:“AI将成为各行各业中每一种应用的主流。借助Project DIGITS,Grace Blackwell超级芯片将惠及数百万开发者。将AI超级计算机放在每一位数据科学家、AI研究人员和学生的桌子上,将使他们能够参与并塑造AI时代。”
这些系统不适用于训练,而是设计用于在本地运行量化的LLM(减少模型权重的精度大小)。Nvidia引用的1 petaFLOP性能数字适用于FP4精度权重(四位,或16个可能的数字)许多模型可以在此级别充分运行,但量化可以增加到FP8、FP16或更高,以获得更好的结果,具体取决于模型的大小和可用内存。例如,对Llama-3-70B模型使用FP8精度权重需要每个参数一个字节或大约70GB的内存。将精度减半到FP4会将其减少到35GB的内存,但增加到FP32将需要140GB,这比DIGITS系统提供的内存还要大。
有人用HPC集群吗?
可能不为人所知的是,DIGITS并不是第一款桌边Nvidia系统。2024年,GPTshop.ai推出了一款基于GH200的桌边系统。HPCwire提供了包括HPC基准测试在内的报道。与DIGITS项目不同,GPTshop系统在桌边机箱中提供了GH200 Grace-Hopper超级芯片和GB200 Grace-Blackwell超级芯片的全部功能。性能的提升也伴随着更高的成本。
将DIGITS项目系统用于桌面HPC可能是一种有趣的方法。除了运行更大的AI模型之外,集成的CPU-GPU全局内存对HPC应用程序也非常有益。请考虑最近HPCwire的一篇关于仅在英特尔两颗Xeon 6 Granite Rapids处理器(无GPU)上运行的CFD应用程序的故事。根据作者Moritz Lehmann博士的说法,模拟的促成因素是他能够用于模拟的内存量。
同样,许多HPC应用程序不得不想方设法绕过常见PCIe连接视频卡的小内存域。使用多张卡或MPI有助于扩展应用程序,但HPC中最有利的因素始终是更多内存。
当然,需要基准测试来确定DIGITS项目是否完全适用于桌面HPC,但还有另一种可能性:“用这些构建一个Beowulf集群”。这句话通常被认为是一个玩笑,但对于DIGITS项目来说可能更严肃一些。当然,集群是用服务器和(多个)PCIe连接的GPU卡构建的。然而,一个小型、中等功率、完全集成的全局内存CPU-GPU可能会成为更平衡、更有吸引力的集群构建块。还有一个好处:它们已经运行Linux并具有内置的ConnectX网络。
本文转自“半导体行业观察”微信公众号;FOREXBNB编辑:陈筱亦。