在春节期间,DeepSeek的新一代开源模型因其极低的成本和卓越的性能成为了热门话题,在全球投资领域引起了巨大的震动。

市场上流传着一种说法,即DeepSeek“仅用500万美元就复制了OpenAI”,并认为这可能会给整个AI基础设施行业带来灾难性的影响。

对此,华尔街的著名投资银行伯恩斯坦在深入研究了DeepSeek的技术文件后发表了一份报告,指出市场的恐慌情绪显然是过度的,而“500万美元复制OpenAI”的说法是对DeepSeek的误解。

此外,该银行认为,尽管DeepSeek的效率提升是显著的,但从技术角度来看,这并不是一个奇迹。即使DeepSeek确实实现了10倍的效率提升,这也仅仅与当前AI模型每年的成本增长幅度相当。

该银行还表示,目前的AI计算需求远远没有达到上限,新增的计算能力很可能会被不断增长的使用需求所吸收,因此对AI行业保持乐观态度。

“500万美元复制OpenAI”是误解

对于“500万美元复制OpenAI”的说法,伯恩斯坦认为,这实际上是对DeepSeek V3模型训练成本的片面理解,错误地将GPU租用成本等同于总投入:

这500万美元仅是基于每GPU小时2美元的租赁价格估算的V3模型训练成本,并未包括前期的研发投入、数据成本以及其他相关费用。

技术革新:效率大幅提升但非颠覆性突破

伯恩斯坦在报告中详细分析了DeepSeek发布的两大模型V3和R1的技术特点。

(1)V3模型的效率革命

该银行表示,V3模型采用了专家混合架构,使用2048块NVIDIA H800 GPU和大约270万GPU小时就达到了与主流大模型相媲美的性能。

具体来说,V3模型采用了混合专家(MoE)架构,这种架构旨在降低训练和运行成本。在此基础上,V3还结合了多头潜在注意力(MHLA)技术,显著减少了缓存大小和内存使用。

同时,FP8混合精度训练的使用进一步优化了性能。这些技术的结合使得V3模型在训练时只需要同等规模开源模型约9%的计算能力,就能达到甚至超越其性能。

例如,V3预训练只需要约270万GPU小时,而同样规模的开源LLaMA模型则需要约3000万GPU小时。

MoE架构:每次只激活部分参数,减少计算量。

MHLA技术:降低内存占用,提升效率。

FP8混合精度训练:在保证性能的同时,进一步提升计算效率。

在谈到V3模型带来的效率提升时,伯恩斯坦认为,与业界3-7倍的常见效率提升相比,这并不是一个颠覆性的突破:

MoE架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练V3时,只有671B个参数中的37B为任何一个令牌更新,而密集模型中所有参数都被更新)。

对其他MoE的比较研究表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;

V3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。

(2)R1模型的推理能力与“蒸馏”策略

DeepSeek的R1模型在V3的基础上,通过强化学习(RL)等创新技术,显著提升了推理能力,使其能够与OpenAI的o1模型相媲美。

值得一提的是,DeepSeek还采用了“模型蒸馏”策略,利用R1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与OpenAI的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为AI技术的普及提供了新的思路。

强化学习(RL):提升模型推理能力。

模型蒸馏:利用大模型训练小模型,降低成本。

对AI板块保持乐观

伯恩斯坦认为,即使DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。

事实上,在“模型规模定律”不断推动成本上升的背景下,像MoE、模型蒸馏、混合精度计算等创新对AI发展至关重要。

根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该银行认为,目前的AI计算需求远远没有达到上限,新增的计算能力很可能会被不断增长的使用需求所吸收。

基于以上分析,伯恩斯坦对AI行业保持乐观态度。

本文转载自“华尔街见闻”,作者:高智谋;FOREXBNB编辑:蒋远华。