英伟达(NVDA.US)这颗芯片，震惊所有人

2025-01-12 20:40

2025年CES展上，Nvidia（NVDA.US）宣布与联发科合作，推出了一款3000美元的新型台式机。这款电脑配备了基于Arm架构的全新精简版Grace CPU。

在2025年的CES展会上，Nvidia (NVDA.US)宣布与联发科合作，共同研发了一款价值3000美元的新型台式机，这款电脑配备了基于Arm架构的全新精简版Grace CPU和Blackwell GPU超级芯片。这款新系统被命名为“Project DIGITS”，需注意不要与Nvidia的深度学习GPU训练系统DIGITS相混淆。该平台为AI和HPC市场带来了一系列创新功能。

Project DIGITS搭载了全新的Nvidia GB10 Grace Blackwell超级芯片，该芯片拥有20个Arm核心，旨在提供“千万亿次”（FP4精度）的GPU-AI计算性能，适用于原型设计、微调和运行大型AI模型。（在此，一个强制性浮点解释器可能会有所帮助。）

自2006年G8x系列显卡发布以来，Nvidia一直致力于为整个GPU系列提供CUDA工具和库。低成本客户显卡能够进行CUDA开发，这有助于构建一个充满活力的应用程序生态系统。由于高性能GPU的成本和稀缺性，DIGITS项目有望实现更多基于LLM的软件开发。与低成本GPU一样，桌面上运行、配置和微调开放式变压器模型（例如llama）的能力对开发人员来说具有吸引力。例如，DIGITS系统提供的128GB内存有助于克服许多低成本消费级显卡上的24GB限制。

规格不足

新款GB10超级芯片采用了Nvidia Blackwell GPU，配备了最新一代CUDA核心和第五代Tensor核心，通过NVLink-C2C芯片到芯片互连技术连接到高性能Nvidia Grace类CPU，其中包括20个节能的Arm核心（十个Arm Cortex-X925和十个Cortex-A725 CPU核心）。

尽管没有具体的规格信息，但GB10的GPU端被认为性能低于Grace-Blackwell GB200。需要明确的是，GB10并不是分档或激光修剪的GB200。GB200超级芯片拥有72个Arm Neoverse V2核心和两个B200 Tensor Core GPU。

DIGITS系统的核心特性是CPU和GPU之间统一、一致的128GB（LPDDR5x）内存。这种内存大小在GPU上运行AI或HPC模型时打破了“GPU内存障碍”；例如，80GB Nvidia A100的当前市场价格从18,000美元到20,000美元不等。有了统一、一致的内存，CPU和GPU之间的PCIe传输也被消除了。下图中的渲染显示内存量是固定的，用户无法扩展。该图还显示ConnectX网络（以太网？）、Wifi、蓝牙和USB连接可用。

该系统还提供了高达4TB的NVMe存储。在电源方面，Nvidia提到了标准电源插座。虽然没有具体的电源要求，但尺寸和设计可能会提供一些线索。首先，与Mac mini系统一样，小尺寸（见图2）表明产生的热量一定不会那么高。其次，根据CES展厅的图像，没有风扇通风口或切口。机箱的正面和背面似乎有一种海绵状的材料，可以提供气流，并可能充当整个系统的过滤器。由于散热设计表明功率，功率表明性能，因此DIGITS系统可能不是一款为实现最大性能（和功耗）而调整的尖叫器，而是一款具有优化内存架构的凉爽、安静、高效的AI桌面系统。

如上所述，该系统非常小。下图提供了一些键盘和显示器的视角（没有显示电缆。根据我们的经验，其中一些小型系统可能会因电缆重量而从桌面上拉下来。）

桌面上的人工智能

Nvidia报告称，开发人员可以运行多达2000亿个参数的大型语言模型，以增强AI创新。此外，使用Nvidia ConnectX网络，两台Project DIGITS AI超级计算机可以连接起来，运行多达4050亿个参数的模型。借助Project DIGITS，用户可以使用自己的桌面系统开发和运行模型推理，然后在加速云或数据中心基础设施上无缝部署模型。

Nvidia创始人兼首席执行官黄仁勋表示：“AI将成为各行各业中每一种应用的主流。借助Project DIGITS，Grace Blackwell超级芯片将惠及数百万开发者。将AI超级计算机放在每一位数据科学家、AI研究人员和学生的桌子上，将使他们能够参与并塑造AI时代。”

这些系统不适用于训练，而是设计用于在本地运行量化的LLM（减少模型权重的精度大小）。Nvidia引用的1 petaFLOP性能数字适用于FP4精度权重（四位，或16个可能的数字）许多模型可以在此级别充分运行，但量化可以增加到FP8、FP16或更高，以获得更好的结果，具体取决于模型的大小和可用内存。例如，对Llama-3-70B模型使用FP8精度权重需要每个参数一个字节或大约70GB的内存。将精度减半到FP4会将其减少到35GB的内存，但增加到FP32将需要140GB，这比DIGITS系统提供的内存还要大。

有人用HPC集群吗？

可能不为人所知的是，DIGITS并不是第一款桌边Nvidia系统。2024年，GPTshop.ai推出了一款基于GH200的桌边系统。HPCwire提供了包括HPC基准测试在内的报道。与DIGITS项目不同，GPTshop系统在桌边机箱中提供了GH200 Grace-Hopper超级芯片和GB200 Grace-Blackwell超级芯片的全部功能。性能的提升也伴随着更高的成本。

将DIGITS项目系统用于桌面HPC可能是一种有趣的方法。除了运行更大的AI模型之外，集成的CPU-GPU全局内存对HPC应用程序也非常有益。请考虑最近HPCwire的一篇关于仅在英特尔两颗Xeon 6 Granite Rapids处理器（无GPU）上运行的CFD应用程序的故事。根据作者Moritz Lehmann博士的说法，模拟的促成因素是他能够用于模拟的内存量。

同样，许多HPC应用程序不得不想方设法绕过常见PCIe连接视频卡的小内存域。使用多张卡或MPI有助于扩展应用程序，但HPC中最有利的因素始终是更多内存。

当然，需要基准测试来确定DIGITS项目是否完全适用于桌面HPC，但还有另一种可能性：“用这些构建一个Beowulf集群”。这句话通常被认为是一个玩笑，但对于DIGITS项目来说可能更严肃一些。当然，集群是用服务器和（多个）PCIe连接的GPU卡构建的。然而，一个小型、中等功率、完全集成的全局内存CPU-GPU可能会成为更平衡、更有吸引力的集群构建块。还有一个好处：它们已经运行Linux并具有内置的ConnectX网络。

本文转自“半导体行业观察”微信公众号；FOREXBNB编辑：陈筱亦。