港股概念追蹤 | “劍指”AGI！OpenAI發布新一代推理模型o3 大模型落地應用可望加速(附概念股)

2024-12-23 08:22

據FOREXBNB報道，OpenAI在追求AGI（通用人工智慧）的道路上取得了新進展。在“OpenAI 12天活動”的最後一天，該公司宣布了一項重要成果。

FOREXBNB獲悉，OpenAI離AGI(artificial general intelligence，通用人工智慧)似乎又更近了一步。上週五，在“OpenAI 12天活動”的第12天，OpenAI執行長薩姆·奧特曼宣布了其最新的人工智慧“推理”模型o3和o3-mini，這兩款模型是在今年稍早推出的o1模型的基礎上開發的。OpenAI聲稱，至少在某些條件下，o3模型可以接近實現AGI。

OpenAI在9月推出了o1系列大模型，他們上週五推出o3系列，在命名上就越過了o2，沒有遵循數字一樣的連續命名方式。對於越過o2，有報道稱可能是為了避免和英國電信業者O2在命名上產生紛爭。而在當天的直播中，薩姆·奧爾特曼承認了他們在命名上的不足，他表示基於OpenAI不太擅長命名的傳統，新的大模型被命名為o3。

同9月推出的o1系列大模型一樣，OpenAI新宣布的o3系列大模型也有o3和o3 mini兩款，不過尚未正式發布，o3 mini是預計在明年年初發布。

從OpenAI方面公佈的消息來看，o3大模型在測試中的表現明顯強於他們先前推出的大模型，在部分測試中的表現已經達到了人類的水平。

在ARC-AGI測試中，o3在低推理能力設定下的得分達到了75.7%，是o1的3倍，在高推理能力設定下則是鋼彈87.5%，超過了85%的人類門檻。

在數學推理及解決問題的能力方面，o3也表現不俗，在2024年AIME測試中，o3的準確率達到了96.7%。

在編碼和軟體工程方面，o3的能力較o1也有大幅提升，在SWE-Bench認證中，o3的得分為71.7%，較o1提升了22.8個百分點。

值得注意的是，有報道提到，在Codeforces的測試中，o3的得分為2727，比OpenAI首席科學家的得分還高。Codeforces是一家為電腦程式設計愛好者提供線上評測的網站，是一個面向程式設計師的線上競賽平台。

除了OpenAI，各家AI公司近期也紛紛發布推理模型。

11月16日，月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math；11月20日，DeepSeek發布了首個推理模型DeepSeek-R1-Lite預覽版；11月28日，阿里雲通義團隊發布全新AI推理模型QwQ-32B-Preview。

在當地時間12月19日，谷歌也發布首個推理模型Gemini 2.0 Flash Thinking。它使用了類似o1模型的慢心思考方式，可以深度視覺化展示整個思維鏈過程，尤其是在執行數學、程式設計等複雜問題方面。相比o1，Gemini 2.0 Flash Thinking的最大差異是，讓使用者能看到一步一步推理的過程，更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了Chatbot Arena大模型評估的榜首。不過，谷歌的這項新模型還處於實驗性階段，只是一個早期版本。

國金證券認為，從中美資本市場AI產業鏈的表現看，此前持續表現強勁的是上游，近期表現強勢的是AI應用。從落地方向看，綜合考慮成本與付費能力，可能先行的是To B方向降本增效，生產力工具可能先行，然後是To C的大用戶量工具、圖文等級的社交娛樂類產品、海量的多媒體娛樂產品。展望未來，隨著大模型使用成本持續下降、中文語言模型能力持續提升背景下，落地應用有望加速，中國企業有文化基礎、數據累積、場景理解、工程應用、客情關係等優勢，有機會形成自己的產業龍頭。

申萬宏源稱，北京時間2024年12月21日，OpenAI在連續12發表會收官之日宣布了o3系列模型，包括o3和o3 mini，較o1 模型再一次突破AI 極限。近階段大模型啟示：1)大模型進展從預訓練端轉變為推理端;2)大模型進入Agent爆發時代;3)利好推理端算力需求;4)應用方面圍繞著解決複雜任務能力的出現，利好科學研究、程式設計軟體開發、辦公室軟體、醫療健康、金融等領域。

港股相關概念股：

創新奇智(02121)：公司“AI+製造業”的持續驅動力充足。公司從2023年開始，實施AI1.0和AI2.0雙塔發展，AI2.0逐步推出ChatX系列垂類大模型的應用落地與預研，並在今年3月底發布了AnnoGC-75B工業大模型(750億參數)，在15B大模型的基礎上增加了多模態。目前ChatX已包括ChatBI，ChatDoc，Chatvision，ChatCAD和Chatrobot等5大主要落地產品。公司9大細分領域涵蓋公司的工業軟體，數智軟體，工業物流，智慧裝備與工業永續五大場景，ChatBI已在食品饮料智造领域的工业软件和數智軟體场景规模落地，ChatDoC和Chatvision在工業永續場景規模落地。ChatCAD在CAD工業設計領域想像空間更大，透過大模型可以改寫傳統CAD設計模式，透過文字，語言直接進行CAD設計，大幅提升CAD設計效率，預計今年公司開始ChatCAD的落地實作工作。ChatRobot是大模型驅動工業機器人自動任務編排，驱动和實施工作部署，公司在大模型發布會上已做了現場演示，雖然還在預研驗證階段，但已初步具備工業應用的落地前景，潛力大。

百度集團-SW(09888)：百度文心大模型截至2024年11月的日均tokens(token是大模型文字處理的最小單位)調用量超過1.5億次，比一年前的5000萬次實現了約30倍的成長，文心一言用戶量達到7000萬。

阿里巴巴-SW(09988)：阿里雲在5月初發布的通義千問2.5，得分就追平GPT-4 Turbo。目前，阿里已經投資了Minimax、月之暗面、010,000 件東西、智譜AI、百川智能等國內主流大模型新創公司。

商湯-W(00020)：公司在2024年的上交會上展示了其最新的醫療健康大模型——“大醫”，这一模型代表了商湯在医疗AI領域的最新成果。在專業醫學任務評測中，“大醫”在檢驗檢查問答、電子病歷生成、線上問診、指導、追蹤、輔助診斷決策等多項醫療任務上的表現已超越GPT-4。

中興通訊(00763)：公司重視在人工智慧領域佈局與投入，憑藉領先的軟硬體數智基座能力，提供端到端的智算解決方案，包括智算基礎設施、AI軟體平台、大模型及應用，滿足不同場景需求，助力企業數智轉型。