北京时间周二深夜,阿里巴巴正式开源旗下视频生成模型万相2.1模型,标志着AI驱动的视频创作领域迎来了顶级前沿模型的开源浪潮。

本周AI产业竞争加剧,美国Anthropic公司发布首个混合推理模型Claude 3.7 Sonnet,DeepSeek持续开源5个代码库,而亚马逊计划为语音助手Alexa带来“AI升级”。同时,有传言称OpenAI可能在本周推出GPT-4.5。

此次开源的万相2.1模型包含两个版本:14B版本适合专业创作者快速部署,1.3B参数版本在家用显卡(如英伟达4090)上单卡8.2G显存即可生成480P高质量视频,性能可与5B参数量的闭源大模型相媲美。

受此消息影响,阿里巴巴美股盘中异动拉升,带动中概股集体走强。

万相2.1模型性能

根据视频生成模型的“大模型排行榜”,万相2.1在VBench基准测试中位居全球第一,超越了美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果STIV等国内外竞品。

行业领跑者的主动开源,意味着视频生成模型赛道将更加生机勃勃,竞争和迭代将变得更加激烈,对消费者和内容产业从业者而言,生产力跃升速度将更快,成本和使用门槛将快速降低。

万相2.1的技术突破主要体现在两点:一是能够展现复杂稳定的人物肢体动作,精准还原碰撞、反弹等复杂物理场景,决定AI生成视频的真实性;二是大模型能驾驭各种风格和题材。

万相2.1还能直接通过提示词,在视频中生成中文字(英文字也可以)及特殊艺术效果,预示着中文AI应用市场将迎来新玩法的升级。

在AI视频中准确生成文字,是绝大多数竞品目前未能达到的高度。

商业化挑战

随着万相2.1完全开源,OpenAI、谷歌等竞品将直面商业化挑战:更好的模型已经开源,AI生成视频的定价也将面临挑战。

OpenAI去年发布Sora产品,面向每月缴纳20/200美元的订阅用户,但由于算力不足,暂时没有推出API的计划。谷歌Veo 2模型则在近期披露定价,每生成1秒视频需要付费0.5美元,相当于生成一个小时的视频需要花费1800美元。

模型 版本 参数量 适用场景 性能对比
万相2.1 14B 14B 专业创作者 与5B参数量闭源大模型相媲美
万相2.1 1.3B 1.3B 家用显卡 生成480P高质量视频

本文转载自财联社,FOREXBNB编辑:陈雯芳。