FOREXBNB獲悉,OpenAI離AGI(artificial general intelligence,通用人工智慧)似乎又更近了一步。上週五,在“OpenAI 12天活動”的第12天,OpenAI執行長薩姆·奧特曼宣布了其最新的人工智慧“推理”模型o3和o3-mini,這兩款模型是在今年稍早推出的o1模型的基礎上開發的。OpenAI聲稱,至少在某些條件下,o3模型可以接近實現AGI。
OpenAI在9月推出了o1系列大模型,他們上週五推出o3系列,在命名上就越過了o2,沒有遵循數字一樣的連續命名方式。對於越過o2,有報道稱可能是為了避免和英國電信業者O2在命名上產生紛爭。而在當天的直播中,薩姆·奧爾特曼承認了他們在命名上的不足,他表示基於OpenAI不太擅長命名的傳統,新的大模型被命名為o3。
同9月推出的o1系列大模型一樣,OpenAI新宣布的o3系列大模型也有o3和o3 mini兩款,不過尚未正式發布,o3 mini是預計在明年年初發布。
從OpenAI方面公佈的消息來看,o3大模型在測試中的表現明顯強於他們先前推出的大模型,在部分測試中的表現已經達到了人類的水平。
在ARC-AGI測試中,o3在低推理能力設定下的得分達到了75.7%,是o1的3倍,在高推理能力設定下則是鋼彈87.5%,超過了85%的人類門檻。
在數學推理及解決問題的能力方面,o3也表現不俗,在2024年AIME測試中,o3的準確率達到了96.7%。
在編碼和軟體工程方面,o3的能力較o1也有大幅提升,在SWE-Bench認證中,o3的得分為71.7%,較o1提升了22.8個百分點。
值得注意的是,有報道提到,在Codeforces的測試中,o3的得分為2727,比OpenAI首席科學家的得分還高。Codeforces是一家為電腦程式設計愛好者提供線上評測的網站,是一個面向程式設計師的線上競賽平台。
除了OpenAI,各家AI公司近期也紛紛發布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math;11月20日,DeepSeek發布了首個推理模型DeepSeek-R1-Lite預覽版;11月28日,阿里雲通義團隊發布全新AI推理模型QwQ-32B-Preview。
在當地時間12月19日,谷歌也發布首個推理模型Gemini 2.0 Flash Thinking。它使用了類似o1模型的慢心思考方式,可以深度視覺化展示整個思維鏈過程,尤其是在執行數學、程式設計等複雜問題方面。相比o1,Gemini 2.0 Flash Thinking的最大差異是,讓使用者能看到一步一步推理的過程,更清晰、更透明地了解模型如何得出結論。它剛亮相就登上了Chatbot Arena大模型評估的榜首。不過,谷歌的這項新模型還處於實驗性階段,只是一個早期版本。
國金證券認為,從中美資本市場AI產業鏈的表現看,此前持續表現強勁的是上游,近期表現強勢的是AI應用。從落地方向看,綜合考慮成本與付費能力,可能先行的是To B方向降本增效,生產力工具可能先行,然後是To C的大用戶量工具、圖文等級的社交娛樂類產品、海量的多媒體娛樂產品。展望未來,隨著大模型使用成本持續下降、中文語言模型能力持續提升背景下,落地應用有望加速,中國企業有文化基礎、數據累積、場景理解、工程應用、客情關係等優勢,有機會形成自己的產業龍頭。
申萬宏源稱,北京時間2024年12月21日,OpenAI在連續12發表會收官之日宣布了o3系列模型, 包括o3和o3 mini,較o1 模型再一次突破AI 極限。近階段大模型啟示:1)大模型進展從預訓練端轉變為推理端;2)大模型進入Agent爆發時代;3)利好推理端算力需求;4)應用方面圍繞著解決複雜任務能力的出現,利好科學研究、程式設計軟體開發、辦公室軟體、醫療健康、金融等領域。
港股相關概念股:
創新奇智(02121):公司“AI+製造業”的持續驅動力充足。公司從2023年開始,實施AI1.0和AI2.0雙塔發展,AI2.0逐步推出ChatX系列垂類大模型的應用落地與預研,並在今年3月底發布了AnnoGC-75B工業大模型(750億參數),在15B大模型的基礎上增加了多模態。目前ChatX已包括ChatBI,ChatDoc,Chatvision,ChatCAD和Chatrobot等5大主要落地產品。公司9大細分領域涵蓋公司的工業軟體,數智軟體,工業物流,智慧裝備與工業永續五大場景,ChatBI已在食品饮料智造领域的工业软件和數智軟體场景规模落地,ChatDoC和Chatvision在工業永續場景規模落地。ChatCAD在CAD工業設計領域想像空間更大,透過大模型可以改寫傳統CAD設計模式,透過文字,語言直接進行CAD設計,大幅提升CAD設計效率,預計今年公司開始ChatCAD的落地實作工作。ChatRobot是大模型驅動工業機器人自動任務編排,驱动和實施工作部署,公司在大模型發布會上已做了現場演示,雖然還在預研驗證階段,但已初步具備工業應用的落地前景,潛力大。
百度集團-SW(09888):百度文心大模型截至2024年11月的日均tokens(token是大模型文字處理的最小單位)調用量超過1.5億次,比一年前的5000萬次實現了約30倍的成長,文心一言用戶量達到7000萬。
阿里巴巴-SW(09988):阿里雲在5月初發布的通義千問2.5,得分就追平GPT-4 Turbo。目前,阿里已經投資了Minimax、月之暗面、010,000 件東西、智譜AI、百川智能等國內主流大模型新創公司。
商湯-W(00020):公司在2024年的上交會上展示了其最新的醫療健康大模型——“大醫”,这一模型代表了商湯在医疗AI領域的最新成果。在專業醫學任務評測中,“大醫”在檢驗檢查問答、電子病歷生成、線上問診、指導、追蹤、輔助診斷決策等多項醫療任務上的表現已超越GPT-4。
中興通訊(00763):公司重視在人工智慧領域佈局與投入,憑藉領先的軟硬體數智基座能力,提供端到端的智算解決方案,包括智算基礎設施、AI軟體平台、大模型及應用,滿足不同場景需求,助力企業數智轉型。