北京時間週二深夜,阿里巴巴正式開源旗下視頻生成模型萬相2.1模型,標誌著AI驅動的視頻創作領域迎來了頂級前沿模型的開源浪潮。
本週AI產業競爭加劇,美國Anthropic公司發布首個混合推理模型Claude 3.7 Sonnet,DeepSeek持續開源5個代碼庫,而亞馬遜計劃為語音助手Alexa帶來“AI升級”。同時,有傳言稱OpenAI可能在本週推出GPT-4.5。
此次開源的萬相2.1模型包含兩個版本:14B版本適合專業創作者快速部署,1.3B參數版本在家用顯卡(如英偉達4090)上單卡8.2G顯存即可生成480P高質量視頻,性能可與5B參數量的閉源大模型相媲美。
受此消息影響,阿里巴巴美股盤中異動拉升,帶動中概股集體走強。
萬相2.1模型性能
根據視頻生成模型的“大模型排行榜”,萬相2.1在VBench基準測試中位居全球第一,超越了美圖奇想、OpenAI Sora、Adobe/麻省理工的CausVid、蘋果STIV等國內外競品。
行業領跑者的主動開源,意味著視頻生成模型賽道將更加生機勃勃,競爭和迭代將變得更加激烈,對消費者和內容產業從業者而言,生產力躍升速度將更快,成本和使用門檻將快速降低。
萬相2.1的技術突破主要體現在兩點:一是能夠展現複雜穩定的人物肢體動作,精準還原碰撞、反彈等複雜物理場景,決定AI生成視頻的真實性;二是大模型能駕馭各種風格和題材。
萬相2.1還能直接通過提示詞,在視頻中生成中文字(英文字也可以)及特殊藝術效果,預示著中文AI應用市場將迎來新玩法的升級。
在AI視頻中準確生成文字,是絕大多數競品目前未能達到的高度。
商業化挑戰
隨著萬相2.1完全開源,OpenAI、谷歌等競品將直面商業化挑戰:更好的模型已經開源,AI生成視頻的定價也將面臨挑戰。
OpenAI去年發布Sora產品,面向每月繳納20/200美元的訂閱用戶,但由於算力不足,暫時沒有推出API的計劃。GoogleVeo 2模型則在近期披露定價,每生成1秒視頻需要付費0.5美元,相當於生成一個小時的視頻需要花費1800美元。
模型 | 版本 | 參數量 | 適用場景 | 性能對比 |
---|---|---|---|---|
萬相2.1 | 14B | 14B | 專業創作者 | 與5B參數量閉源大模型相媲美 |
萬相2.1 | 1.3B | 1.3B | 家用顯卡 | 生成480P高質量視頻 |
本文轉載自財聯社,FOREXBNB編輯:陳雯芳。