根據FOREXBNB的報道,上個星期五(1月17日),OpenAI的CEO山姆·奧特曼在社群媒體平台X上宣布,公司已經完成了最新的推理AI模型o3 mini的版本更新,並計劃在未來幾週內對外發布。此前在2023年12月底,OpenAI曾透露,在特定條件下,o3模型有望接近實現AGI(通用人工智慧)。
在2024年9月,OpenAI推出了o1推理AI模型,該模型透過延長處理查詢的時間,能夠處理更加複雜的問題。據稱,o1模型在科學、程式設計和數學等領域能夠處理更具挑戰性的問題。與GPT等舊版模型相比,o1模型不僅僅是一次簡單的升級,而是代表了“全新的遊戲規則”和“真正的進步”。OpenAI的研究副總裁Mark Chen曾表示,o1與标准的ChatGPT有著本質的區別,因為它具備“推理”能力,這是人類智慧的一個標誌。
隨著o1模型的發布,去年國內市場也出現了一批新興的大型模型,包括kimi的k0math、幻方量化的Deepseek的DeepSeek-R1-Lite以及崑崙萬維的“天工大模型4.0”o1版。月之暗面先後推出了數學模型k0-math和升級版的視覺思考模型k1,在數理化等特定領域的表現超過了o1。得益於成本的降低和模型的演化,AI應用也開始大量湧現。ChatGPT風格的AI對話助手成為了各家的“標配”,包括字節豆包、月之暗面Kimi、騰訊元寶等。
即將發布的o3和o3 mini模型預計將比o1系列更加強大。OpenAI的發言人曾表示,在命名這款新模型時,他們決定跳過o2,這是出於對英國電信公司O2的尊重。
據悉,o3模型在ARC-AGI基準測試中取得了創紀錄的分數。ARC-AGI由Keras的創辦人François Chollet開發,主要透過圖形邏輯推理來測試模型的推理能力。在滿分為100%的ARC-AGI評估中,o3在低計算場景下得分為75.7%,在高計算測試中得分為87.5%。o3的最佳成績超過了代表達到人類水平的85%的門檻。相比之下,o1模型的得分僅在25%到32%之間。另外,在衡量程式能力的Codeforces Elo評分中,o3獲得了2727的Elo評分,而o1的評分仅为1891。
國金證券預測,未來隨著大模型使用成本的持續下降和中文語言模型能力的不斷提升,落地應用可望加速。中國企業憑藉文化基礎、數據累積、場景理解、工程應用和客情關係等優勢,有機會成為產業的領導者。
中信證券表示,觀察2025年全球科技市場投資,從市場角度來看,中國科技資產相對於美國資產具有較高的投資性價比。在中國科技板塊中,中概互聯網板塊被視為首選,關注短期宏觀復甦和政策刺激為板塊帶來的績效轉折點,以及中長期AI生態的持續繁榮為板塊帶來的估值重塑機會,並看好中國國產AI產業鏈的投資機會。
相關概念股:
百度集團-SW(09888):在模型方面,百度的文心大模型矩陣包括ERNIE 4.0 Turbo等旗艦大模型、ERNIE Speed等輕量級模型,以及基於基礎模型生產的一系列思考模型和場景模型。根據百度揭露的數據,文心大模型的日均調用量超過15億,相較於一年前成長了約30倍,用戶規模達到4.3億。在產品方面,根據官方數據,截至去年9月,文小言的月活躍用戶達到千萬級別,累計調用量超過20億次。
阿里巴巴-SW(09988):阿里雲在去年5月初發布的通義千問2.5,得分已經追平GPT-4 Turbo。目前,阿里已經投資了Minimax、月之暗面、010,000 件東西、智譜AI、百川智能等國內主流的大模型新創公司。
商湯-W(00020):國內權威大模型評測機構SuperCLUE發布的《中文大模型基準測評2024年度報告》中,商湯的“日日新”融合大模型以總分68.3的優異成績,與DeepSeek V3並列國內榜首,成為年度第一。在近期另一個權威綜合評測機構OpenCompass的多模態評測中,商湯以同一款模型同样取得了榜单第一,分數大幅領先GPT-4o。