视频大模型卷开源?阿里旗下大模型万相2.1宣布开源

2月25日,阿里云宣布旗下视觉生成基座模型万相 2.1(Wan)开源。此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

图片

公开资料显示,此次开源共包括两个参数版本模型。

其中14B版本万相模型,在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置;1.3B版本万相模型,超过了更大尺寸的开源模型,还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生480P视频,适用于二次模型开发和学术研究。

图片

演示材料显示,万相大模型在多个内部和外部基准测试中,均大幅超越现有的开源模型以及顶尖商业闭源模型。

万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。在指令遵循能力方面,能够准确理解中英文长文本指令,还原各种场景切换、角色互动。

近期,开源浪潮在AI领域愈演愈烈,尤其是在视频生成大模型的研究上,多个厂商纷纷投身其中。DeepSeek的引领下,开源潮席卷而来。自2月24日起,DeepSeek连续五天发布了多个代码库,包括优化GPU使用效率和为MoE模型训练与推理设计的EP通信库等。

与此同时,百度也宣布文心大模型4.5将进行开源,而月之暗面则首次在其关注注意力机制的论文中公开了相关代码。

除了基础的大模型,厂商们也开始将开源的视野拓展到更为复杂的视频生成技术。昆仑万维于2月18日开源了其为AI短剧创作打造的视频生成模型SkyReels-V1和表情动作可控算法SkyReels-A1。SkyReels-V1能够实现影视级人物微表情的生成,支持33种细致的表情和400多种自然动作的组合,完美再现人物情感。

另外在2月21日,在“AI大模型六小龙”中一向低调的阶跃星辰在上海举办首届Step UP生态开放日,阶跃星辰创始人、CEO姜大昕在大会上也官宣阶跃星辰将在3月份开源图生视频大模型。 

这一切的发生,证明了开源不仅推动了大模型的共享,也正在推动更高难度的技术应用,特别是在视频生成领域的突破。

*文章为光网号的作者观点,不代表平台立场
举报
展开阅读全文
0
赞赏
广告
{{moduleName}}
{{moduleName}}
{{item.NickName==''?item.UserCode:item.NickName}}
{{item.Like_quantity}}
{{item.Comment_content}}
{{formatDate(item.Addtime,"yyyy/MM/dd")}}·
回复
删除
{{item.NickName==''?item.UserCode:item.NickName}}: {{item.ReplyContent}}
查看全部{{item.ReplyNumber}}回复
暂无信息 快来说两句
还没评论 快来说两句
评论
我来说两句…