中國人工智能初創公司DeepSeek發布6850億參數新模型DeepSeek-V3-0324
中國人工智能初創公司DeepSeek在AI存儲庫Hugging Face上悄然發布了一款參數達6850億個的新模型DeepSeek-V3-0324,儘管發布低調,卻在業內引起了巨大轟動。
這款模型已經取得了MIT許可證,意味著可以自由用於商業用途。業內早期測試證實,該模型可以直接在消費級硬件上運行,例如高端市場的蘋果Mac Studio。
AI研究員Awni Hannun表示,新的DeepSeek-V3模型可以在配備M3 Ultra芯片的蘋果電腦上,以每秒20個token的速度運行。這打破了業界關於人工智能模型能力與本地化運行或衝突的早前共識,也意味著數據中心並不是大模型的必要搭配。
性能對比
另一名人工智能研究員Xeophon在內部工作台上測試了新版DeepSeek-V3後,發現它在測試的所有指標上都有了巨大飛躍。它現在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。
模型 | 性能 |
---|---|
DeepSeek-V3 | 超越甲骨文的Claude Sonnet 3.5 |
Claude Sonnet 3.5 | 被DeepSeek-V3超越 |
DeepSeek-V3-0324面世時沒有附帶白皮書,也沒有任何宣傳,只有一個空的ReadMe文件。這一近乎樸素的發布形式,與硅谷精心策劃的產品宣傳模型形成鮮明對比。
與此同時,DeepSeek的模型都是開源模型,可供任何人免費下載和使用,與最好商業模型之一的Claude Sonnet截然相反,後者按月收取20美元的費用。
此外,DeepSeek還從根本上重新構想了大型語言模型的運作方式,在特定任務期間僅激活約370億個參數而非全部,也就是所謂的“專家”模塊,這大大降低了計算需求。
該模型還有另外兩項突破性技術:多頭潛在註意力(MLA)和多標記預測(MTP)。MLA增強了模型在長篇文本中保持上下文的能力,而MTP每一步生成多個標記,而不是通常的一次生成一個標記的方法。這些創新共同將輸出速度提高了近80%。
某種程度上,DeepSeek體現了中國企業對效率和資源極致追求的精神,即如何以有限的計算資源實現相等或者更加優化的性能。而這種由需求驅動的創新已經使中國的人工智能在幾個月時間內震驚了全球。
DeepSeek新模型的改變對於業內來說也具有重大意義,一方面其大大降低了大模型的能耗及計算成本,進一步動搖了華爾街對於頂級模型基礎設施的投資規模假設;另一方面,中國人工智能行業對開源的廣泛共識又迅速推動國內AI行業的發展,不斷縮短其與世界頂尖對手的距離。
還有人認為,在DeepSeek的快速追趕下,其計劃在4月發布的R2模型有可能直接挑戰OpenAI宣傳已久的GPT-5模型。如果這一前景真的發生,那麼中美兩國發展人工智能的不同思路可能將迎來直接的交鋒。