AI領域迎來新突破,阿里云通義千問官方於3月6日發布並開源了全新的推理模型通義千問QwQ-32B。這款擁有325億參數的模型,在性能上與具備6710億參數的DeepSeek-R1滿血版相媲美,甚至超過了OpenAI的o1-mini。此次開源採用Apache 2.0協定,意味著用戶可以免費商用。受此消息影響,阿里巴巴在港股市場出現較大漲幅,截至目前,港股阿里巴巴-W(09988)報138港元,漲幅6.24%。
去年11月28日,阿里已開源了預覽版的推理大模型QwQ-32B-Preview,當時DeepSeek R1尚未發布,这可能是當時最早开源的推理大模型之一。三個月後的今天,QwQ-32B正式開源,去掉了預覽版的標籤。與預覽版相比,正式版在上下文長度和AIME评分等方面有显著提升,上下文長度從32K增加到131K,AIME評分提升了50%。
QwQ-32B在多個基準測試中表現出色,阿里雲對其進行了數學推理、編程能力和通用能力的測試,並與其他領先模型進行了性能對比。具體來看,在測試數學能力的AIME24評測集上,以及評估代碼能力的LiveCodeBench中,QwQ-32B的表現與DeepSeek-R1相當,遠勝於o1-mini及相同尺寸的R1蒸餾模型。在LiveBench、IFEval評測集、BFCL測試中,QwQ-32B的得分均超越了DeepSeek-R1。
評測集 | QwQ-32B | DeepSeek-R1 | o1-mini | R1蒸餾模型 |
---|---|---|---|---|
AIME24 | 相當 | 相當 | 遠勝 | 遠勝 |
LiveCodeBench | 相當 | 相當 | 遠勝 | 遠勝 |
LiveBench | 超越 | 未超越 | - | - |
IFEval | 超越 | 未超越 | - | - |
BFCL | 超越 | 未超越 | - | - |
目前,QwQ-32B已在Hugging Face和ModelScope開源,並採用了Apache 2.0開源协议,用戶可以免費體驗其強大的推理能力。阿里雲計劃將更強大的基礎模型與規模化計算資源的RL相結合,以實現人工通用智能。同時,阿里雲正積極探索將智能體與RL集成,以實現長時推理。