根据FOREXBNB的报道,国泰君安在其研究报告中指出,DeepSeek通过模型优化显著降低了成本,其价值可能从模型层面转移到应用层面。DeepSeek已经成为全球增长最快的AI应用之一,仅用20天就实现了2000万的日活跃用户(DAU),这带来了巨大的推理计算需求。因此,国泰君安推荐关注在算力领域受益的英伟达(NVDA.US)、台积电(TSM.US),以及在应用领域受益的腾讯(00700)、小米(01810)、Meta(META.US)、谷歌(GOOGL.US)。
以下是国泰君安的核心观点:
DeepSeek通过多项工程创新,实现了训练成本的降低、推理成本的降低以及模型效果的提升。
1) 降低训练成本:DeepSeek采用了较宽的MOE架构,并提出了共享专家机制,仅在每次训练中激活所需的专家(按需激活),而不是全部激活,从而大幅降低了训练成本。此外,通过使用fp8低精度训练、双管道训练、多Token预测等技术进一步降低了训练成本。
2) 降低推理成本:DeepSeek引入了多头潜在注意力(MLA)机制,在不牺牲模型质量的情况下,显著减少了KV缓存的大小。同时,通过低精度存储和通信、推理阶段动态专家选择等方法进一步降低了推理成本。
3) 提高模型效果:与常规的SFT不同,DeepSeek采用强化学习进行后训练,显著提升了模型的推理能力。此外,DeepSeek针对中文进行了大量风格对齐,显著提升了模型的可用性。
DeepSeek的模型降本效应,从长远来看,将为AI应用产业打开上升通道,算力需求不减反增。
正如蒸汽机效率的提升并未导致煤炭使用量的减少,DeepSeek虽然实现了模型的大幅降本,但从长远来看,将为AI应用产业打开上升通道,算力需求不减反增。算力需求的多样性表现在:1) 模型向更高智能维度的跃迁需要更多的算力。2) AI应用的推理需要广泛的算力,更多的人将训练和推理自己的模型。3) 对等异构计算的新主流计算形态需要更多的GPU。4) 目前模型仅停留在对话层面,未来从对话到任务、到多模态的转变还需要更多的算力支持。
根据AI产品榜的数据,DeepSeek应用(APP,非网页)成为增长最快的AI产品,上线20天就达到了DAU 2000万,显示出模型能力提升对用户的极大吸引力,并带来了潜在的巨大推理算力需求。
DeepSeek并没有真正绕过CUDA架构。
DeepSeek没有使用CUDA的API,而是直接使用PTX,以实现对计算过程的更细粒度控制。PTX是英伟达GPU架构中的技术,是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。编写PTX代码的做法非常复杂且难以维护,对技术人员的要求极高,且移植性较差,难以移植到不同型号的GPU。
DeepSeek基于PTX进行优化表明他们有能力优化其他GPU,但这并不意味着完全脱离了CUDA生态,也不意味着其他团队有能力直接使用PTX,因此英伟达的CUDA护城河依然存在。
风险提示包括:地缘政治风险;大模型迭代进展不及预期;监管风险;商业化进度不及预期。