Nvidia在GTC大会上展示未来计算平台,面临工艺技术挑战和数据中心转型压力
在本月的Nvidia GTC大会上,CEO黄仁勋不仅展示了下一代Blackwell Ultra处理器,还透露了未来两代加速计算平台的大量细节。其中包括一个包含576个GPU的600kW机架级系统,以及计划于2028年问世的以Richard Feynman命名的GPU系列。
Nvidia面临的挑战不只一个,而是好几个,且基本上都不受其控制。工艺技术进步放缓,Nvidia的策略是尽可能扩大每个计算节点的硅片数量。目前,Nvidia最密集的系统使用其高速1.8TB/s NVLink结构将72个GPU整合到一个计算域中。计划将GPU数量提升至每机架144个,最终达到576个。
性能与功耗的挑战
Nvidia的Blackwell加速器性能比Hopper高出5倍,但需要两倍的芯片数量、新的4位数据类型和500瓦以上的功率。以FP16为标准,Nvidia顶级规格的Blackwell芯片仅比GH100快1.25倍,密度为1,250 teraFLOPS,而密度为989。
到2027年,Nvidia预计随着Rubin Ultra NVL576的首次亮相,机架功率将飙升至600kW。Rubin Ultra将延续趋势,从两个光罩限制芯片增加到四个。即使效率提高了约20%,黄仁勋预计台积电2nm仍将是一个热门技术。
芯片 | 性能提升 | 功耗 |
---|---|---|
Blackwell | 5倍于Hopper | 500瓦以上 |
Rubin Ultra | 预计效率提高20% | 600kW机架 |
数据中心的转型压力
600kW机架对于数据中心运营商来说是一个极其令人头痛的问题。冷却兆瓦级超密集计算并不是一个新问题,但变化的是我们谈论的不是每年少数几个精品计算集群,而是数十个集群。
云厂商似乎正在放缓他们的数据中心建设步伐。TD Cowen的报告显示,微软已经放弃了在美国和欧洲租赁价值2千兆瓦数据中心容量的谈判,并且已经推迟和取消了其他数据中心的租赁。
Nvidia的大规模NVL72机架级系统承诺,推理工作负载的性能将达到其Hopper GPU的30倍或更高,训练性能将达到其Hopper GPU的4倍。这种性能是以更密集的机架、更高的功耗和更多的废热产生为代价的。
微软已经表示相信需要全新的数据中心设计,甚至在2024年详细制定了此类设施的计划。然而,让新建数据中心的容量投入使用需要时间。关键部件和能源供应的短缺也对这一情况不利。
Nvidia在中国的业务也面临不确定性。中国大陆和香港是Nvidia的第四大市场,占其2025财年收入的约13%(即171亿美元)。中国监管机构将出台先进芯片的能效规定,可能禁止中国客户在建设或扩建数据中心时使用Nvidia的H20芯片。