北京时间周二深夜,阿里巴巴正式开源旗下视频生成模型万相2.1模型,标志着AI驱动的视频创作领域迎来了顶级前沿模型的开源浪潮。
本周AI产业竞争加剧,美国Anthropic公司发布首个混合推理模型Claude 3.7 Sonnet,DeepSeek持续开源5个代码库,而亚马逊计划为语音助手Alexa带来“AI升级”。同时,有传言称OpenAI可能在本周推出GPT-4.5。
此次开源的万相2.1模型包含两个版本:14B版本适合专业创作者快速部署,1.3B参数版本在家用显卡(如英伟达4090)上单卡8.2G显存即可生成480P高质量视频,性能可与5B参数量的闭源大模型相媲美。
受此消息影响,阿里巴巴美股盘中异动拉升,带动中概股集体走强。
万相2.1模型性能
根据视频生成模型的“大模型排行榜”,万相2.1在VBench基准测试中位居全球第一,超越了美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果STIV等国内外竞品。
行业领跑者的主动开源,意味着视频生成模型赛道将更加生机勃勃,竞争和迭代将变得更加激烈,对消费者和内容产业从业者而言,生产力跃升速度将更快,成本和使用门槛将快速降低。
万相2.1的技术突破主要体现在两点:一是能够展现复杂稳定的人物肢体动作,精准还原碰撞、反弹等复杂物理场景,决定AI生成视频的真实性;二是大模型能驾驭各种风格和题材。
万相2.1还能直接通过提示词,在视频中生成中文字(英文字也可以)及特殊艺术效果,预示着中文AI应用市场将迎来新玩法的升级。
在AI视频中准确生成文字,是绝大多数竞品目前未能达到的高度。
商业化挑战
随着万相2.1完全开源,OpenAI、谷歌等竞品将直面商业化挑战:更好的模型已经开源,AI生成视频的定价也将面临挑战。
OpenAI去年发布Sora产品,面向每月缴纳20/200美元的订阅用户,但由于算力不足,暂时没有推出API的计划。谷歌Veo 2模型则在近期披露定价,每生成1秒视频需要付费0.5美元,相当于生成一个小时的视频需要花费1800美元。
模型 | 版本 | 参数量 | 适用场景 | 性能对比 |
---|---|---|---|---|
万相2.1 | 14B | 14B | 专业创作者 | 与5B参数量闭源大模型相媲美 |
万相2.1 | 1.3B | 1.3B | 家用显卡 | 生成480P高质量视频 |
本文转载自财联社,FOREXBNB编辑:陈雯芳。