
Wan2.5全面解析:发展轨迹、技术特点与Google Veo3的对比
Wan 2.5和Veo3谁更强?
Wan 系列的发展轨迹
阿里巴巴旗下的 “Wan” 系列自问世以来,一直以 开源、可商业应用 的定位受到视频生成社区的关注。从早期的基础视频拼接到如今的多模态生成,团队不断迭代模型架构,为创作者提供了更强大的工具。
Wan 2.1:多语种视频编辑的尝试
2024 年推出的 Wan 2.1 是该系列早期版本,主要提供基于文本的短视频生成,并尝试支持多语种输入。由于硬件和算法限制,这一代的视频分辨率、时长以及效果较为有限,但它为后续模型奠定了开放源代码、支持中文的基础。
Wan 2.2:Mixture of Experts 架构的突破
2025 年初发布的 Wan 2.2 在开源社区掀起热潮。这一版本采用了 Mixture of Experts(MoE) 架构,将降噪过程拆分为“高噪声专家”和“低噪声专家”两部分:高噪专家负责在噪声较大的阶段保持全局结构,低噪专家在噪声较小的阶段补全细节,模型支持 文字到视频 (T2V)、图文联合到视频 (TI2V)、图像到视频 (I2V) 以及 声音到视频 (S2V) 等多种生成模式.
Wan 2.2 的视频分辨率为 720p,帧率 24fps。由于采用 Apache 2.0 许可证,它可以在商业项目中免费使用,Wan 2.2 在多个指标上击败了同类模型,如 OpenAI Sora、Pika 2.2 和 Runway 3 等。这一成就标志着开源视频生成迈向实用化阶段。
Wan 2.5:原生音视频融合的全新里程碑
1. 发布背景
在 2025 年 9 月召开的阿里巴巴云栖大会上,官方首次展示了 Wan 2.5。 这款预览版模型将文本、音频和视频作为统一输入,在训练阶段实现三模态的联合学习,实现 原生的高保真音视频同步,视频时长从 5 秒延长至 10 秒,并提供 1080p 分辨率,这在开源模型中属于领先水平。
2. 核心技术特点
- 1.统一多模态架构:模型基于改进的 MoE 结构,能够同时处理文本、图像、视频和音频信号,在同一个网络中学习三种数据的关系,从而实现语义、视觉与听觉的一体化输出。
- 2.10 秒 1080p 高品质视频:Wan 2.5 可生成时长 10 秒、分辨率 1080p 的视频,画面稳定流畅,为未来提升到 4K 提供基础。
- 3.原生音频生成:与前代模型需要后期配音不同,Wan 2.5 能直接生成对话、环境声、背景音乐等音轨,且与画面同步。Fal 博客强调,模型可以输出咖啡店聊天、风声、水流声等复杂声场,增强故事氛围。
- 4.强大的文本适配能力:新版本提升了对复杂提示词的理解能力,能根据用户描述生成符合场景的镜头语言,并提供更好的风格适配。
- 5.人类偏好强化学习 (RLHF):相比 Wan 2.2,新模型加入了 RLHF 训练,使输出更符合用户的审美偏好和指令要求。
- 6.整体性能提升:官方数据显示,Wan 2.5 的生成速度提升约 25%,视频画质提高 30%,语义符合度提升 40%,动作复现提升 35%,并持续采用 Apache 2.0 开源协议。
三、与 Google Veo 3 的对比
1. Veo 3 概述
Google 在 2025 年 5 月推出了第三代视频生成模型 Veo 3。Cybernews 文章指出,Veo 3 能生成最多 8 秒 的 1080p 视频,并提供灵活的画幅比例、丰富的摄像机运动和更好的面部细节 它支持 文本到视频 和 图像到视频,并引入 音视频同步技术,可以生成音乐、对白和环境音 此外,Veo 3 为创作者提供可视化的编辑界面,但模型并未开源,只能通过 Google 的Vertex AI平台、Gemini网页,Gemini API等渠道访问。
2. 模型差异
Veo 3 与 Wan 2.5 在理念和使用策略上有所不同。Veo 3 采用闭源商业模式,用户需支付订阅费才能使用。 相比之下,Wan 2.5 完全开源,允许个人和企业在本地或云端部署。另外,Wan 2.5 支持中文和国际语言,且无地域访问限制;Veo 3 在部分地区需经 VPN 才能使用。
3. 对比表
下表根据公开资料整理了 Wan 2.5、Google Veo 3 和 Kling 2.5 Turbo(另一个商用模型)的关键参数,对照时每个项目仅列出关键词或数字:
功能或参数 | Wan 2.5 | Veo 3 |
---|---|---|
开源性质 | ✅ 开源 | ❌ 闭源 |
音视频同步 | ✅ 原生 | ✅ 同步 |
最大分辨率 | 1080p | 720p |
视频时长 | 10 秒 | 8 秒 |
中文支持 | 强 | 有限 |
地域限制 | 无 | 需 VPN |
商业使用 | 可免费商用 | 有限制 |
API 接入 | ✅ 支持 | ✅ 支持 |
四、五个代表性提示词
为了更好地比较 Wan 2.5 与 Veo 3 的生成效果,可以使用同一组中文提示词测试两款模型。以下是五个适合实验的场景描述:(待更新)
咖啡店对话:描述一个阳光透入窗户的咖啡店,女主角在柜台点单,背景应有咖啡机轰鸣与顾客交谈声,生成的角色应说出“我要一杯拿铁”。
高速追车:描述一辆 F1 赛车在城市街道高速奔跑,镜头穿过桥梁与霓虹灯,配以紧张的电音背景和引擎轰鸣。
海边歌手:描绘夕阳下的海滩,一位女子弹着吉他歌唱,海浪声和海鸥鸣叫应与她的歌声相融合。
科幻行星:描写深蓝星球在宇宙中缓慢旋转,周围环绕着红色卫星,背景音乐采用电子氛围声,让画面呈现神秘科幻感。
极限攀岩:描述悬崖上的攀岩者冲上顶峰,广角镜头展示峡谷全景,背景包含呼啸风声和紧张的音乐。
用户可以用同样的提示词在 Veo 3 生成视频,通过对比音画同步程度、画面稳定性和风格还原度来评估两者差异。
五、Wan 2.5 的体验方式与可用平台
目前试用 Wan 2.5 的渠道较多,既有官方平台也有第三方社区服务:
- 通义万象官网:阿里巴巴云提供的官方平台,用户可以直接上传提示词生成视频,并提供部分免费额度。适合初学者了解模型基本能力。https://wan.video/
- Fal.ai Playground:Fal.ai 提供了 Wan 2.5 的预览版及 API。Fal 博客建议开发者在 Playground 中尝试文本到视频和图像到视频功能。 https://fal.ai/
- 阿里云百炼平台:面向企业客户,提供高性能 API、付费订阅和定制服务,企业用户可按需选择计算资源。https://bailian.console.aliyun.com/
- 第三方整合平台:如 https://wananimate.org 等聚合多种模型的平台,用户只需订阅一个账户便可测试 Wan 2.5、Veo 3 等多模型,并比较效果。
六、背后公司的战略与未来方向
阿里巴巴在 2025 年云栖大会上公布了全面的 AI 战略。集团计划在三年内投资约 380 亿元人民币 用于 AI 和云基础设施。阿里巴巴数字媒体与娱乐集团 CEO Eddie Wu 表示,大模型将“深度融入各种设备并具备长期记忆”,并强调开源是公司战略的一部分。 自 2023 年发布 Qwen 大模型以来,阿里巴巴已经开源 300 多款 AI 模型,累计下载量超过 6 亿,衍生模型多达 17 万 个。Wan 2.5 的推出证明阿里巴巴继续朝“开放生态”方向前进。在未来版本中,模型预计将支持 4K 分辨率、更长的视频时长以及更精准的音画同步。同时,团队还会利用 RLHF 与多模态对齐技术,使模型更好地理解长篇提示和复杂场景。
七、总结
Wan 2.5 的发布标志着开源视频生成迈入多模态时代。通过统一文本、图像、音频的模型架构,它提供了更真实、更丰富的影音体验,并大幅提升生成效率和画质。与 Google Veo 3 相比,Wan 2.5 在开源、中文支持和商业友好度方面具有明显优势。随着未来技术升级和生态完善,Wan 2.5 有望成为全球创作者的重要工具,也进一步彰显了阿里巴巴在 AI 视频领域的技术积累和开放姿态。
邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新