北京時間週二深夜,阿里巴巴正式開源旗下視頻生成模型萬相2.1模型,標誌著AI驅動的視頻創作領域迎來了頂級前沿模型的開源浪潮。

本週AI產業競爭加劇,美國Anthropic公司發布首個混合推理模型Claude 3.7 Sonnet,DeepSeek持續開源5個代碼庫,而亞馬遜計劃為語音助手Alexa帶來“AI升級”。同時,有傳言稱OpenAI可能在本週推出GPT-4.5。

此次開源的萬相2.1模型包含兩個版本:14B版本適合專業創作者快速部署,1.3B參數版本在家用顯卡(如英偉達4090)上單卡8.2G顯存即可生成480P高質量視頻,性能可與5B參數量的閉源大模型相媲美。

受此消息影響,阿里巴巴美股盤中異動拉升,帶動中概股集體走強。

萬相2.1模型性能

根據視頻生成模型的“大模型排行榜”,萬相2.1在VBench基準測試中位居全球第一,超越了美圖奇想、OpenAI Sora、Adobe/麻省理工的CausVid、蘋果STIV等國內外競品。

行業領跑者的主動開源,意味著視頻生成模型賽道將更加生機勃勃,競爭和迭代將變得更加激烈,對消費者和內容產業從業者而言,生產力躍升速度將更快,成本和使用門檻將快速降低。

萬相2.1的技術突破主要體現在兩點:一是能夠展現複雜穩定的人物肢體動作,精準還原碰撞、反彈等複雜物理場景,決定AI生成視頻的真實性;二是大模型能駕馭各種風格和題材。

萬相2.1還能直接通過提示詞,在視頻中生成中文字(英文字也可以)及特殊藝術效果,預示著中文AI應用市場將迎來新玩法的升級。

在AI視頻中準確生成文字,是絕大多數競品目前未能達到的高度。

商業化挑戰

隨著萬相2.1完全開源,OpenAI、谷歌等競品將直面商業化挑戰:更好的模型已經開源,AI生成視頻的定價也將面臨挑戰。

OpenAI去年發布Sora產品,面向每月繳納20/200美元的訂閱用戶,但由於算力不足,暫時沒有推出API的計劃。GoogleVeo 2模型則在近期披露定價,每生成1秒視頻需要付費0.5美元,相當於生成一個小時的視頻需要花費1800美元。

模型 版本 參數量 適用場景 性能對比
萬相2.1 14B 14B 專業創作者 與5B參數量閉源大模型相媲美
萬相2.1 1.3B 1.3B 家用顯卡 生成480P高質量視頻

本文轉載自財聯社,FOREXBNB編輯:陳雯芳。