视频大模型卷开源？阿里旗下大模型万相2.1宣布开源

元宇宙阅读实验室

2025/02/27

关注

相关推荐

俞立昂

关注

俞立昂

已关注

2月25日，阿里云宣布旗下视觉生成基座模型万相 2.1（Wan）开源。此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

公开资料显示，此次开源共包括两个参数版本模型。

其中14B版本万相模型，在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集Vbench中，万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置；1.3B版本万相模型，超过了更大尺寸的开源模型，还和一些闭源的模型结果接近，同时能在消费级显卡运行，仅需8.2GB显存就可以生480P视频，适用于二次模型开发和学术研究。

演示材料显示，万相大模型在多个内部和外部基准测试中，均大幅超越现有的开源模型以及顶尖商业闭源模型。

万相能够稳定展现各种复杂的人物肢体运动，如旋转、跳跃、转身、翻滚等；能够精准还原碰撞、反弹、切割等复杂真实物理场景。在指令遵循能力方面，能够准确理解中英文长文本指令，还原各种场景切换、角色互动。

近期，开源浪潮在AI领域愈演愈烈，尤其是在视频生成大模型的研究上，多个厂商纷纷投身其中。DeepSeek的引领下，开源潮席卷而来。自2月24日起，DeepSeek连续五天发布了多个代码库，包括优化GPU使用效率和为MoE模型训练与推理设计的EP通信库等。

与此同时，百度也宣布文心大模型4.5将进行开源，而月之暗面则首次在其关注注意力机制的论文中公开了相关代码。

除了基础的大模型，厂商们也开始将开源的视野拓展到更为复杂的视频生成技术。昆仑万维于2月18日开源了其为AI短剧创作打造的视频生成模型SkyReels-V1和表情动作可控算法SkyReels-A1。SkyReels-V1能够实现影视级人物微表情的生成，支持33种细致的表情和400多种自然动作的组合，完美再现人物情感。

另外在2月21日，在“AI大模型六小龙”中一向低调的阶跃星辰在上海举办首届Step UP生态开放日，阶跃星辰创始人、CEO姜大昕在大会上也官宣阶跃星辰将在3月份开源图生视频大模型。

这一切的发生，证明了开源不仅推动了大模型的共享，也正在推动更高难度的技术应用，特别是在视频生成领域的突破。

*文章为光网号的作者观点，不代表平台立场

展开阅读全文

赞赏