Wan2.5全面解析：发展轨迹、技术特点与Google Veo3的对比

Wan 系列的发展轨迹

阿里巴巴旗下的 “Wan” 系列自问世以来，一直以开源、可商业应用的定位受到视频生成社区的关注。从早期的基础视频拼接到如今的多模态生成，团队不断迭代模型架构，为创作者提供了更强大的工具。

Wan 2.1：多语种视频编辑的尝试

2024 年推出的 Wan 2.1 是该系列早期版本，主要提供基于文本的短视频生成，并尝试支持多语种输入。由于硬件和算法限制，这一代的视频分辨率、时长以及效果较为有限，但它为后续模型奠定了开放源代码、支持中文的基础。

Wan 2.2：Mixture of Experts 架构的突破

2025 年初发布的 Wan 2.2 在开源社区掀起热潮。这一版本采用了 Mixture of Experts（MoE）架构，将降噪过程拆分为“高噪声专家”和“低噪声专家”两部分：高噪专家负责在噪声较大的阶段保持全局结构，低噪专家在噪声较小的阶段补全细节,模型支持文字到视频 (T2V)、图文联合到视频 (TI2V)、图像到视频 (I2V) 以及声音到视频 (S2V) 等多种生成模式.

Wan 2.2 的视频分辨率为 720p，帧率 24fps。由于采用 Apache 2.0 许可证，它可以在商业项目中免费使用，Wan 2.2 在多个指标上击败了同类模型，如 OpenAI Sora、Pika 2.2 和 Runway 3 等。这一成就标志着开源视频生成迈向实用化阶段。

Wan 2.5：原生音视频融合的全新里程碑

1. 发布背景

在 2025 年 9 月召开的阿里巴巴云栖大会上，官方首次展示了 Wan 2.5。这款预览版模型将文本、音频和视频作为统一输入，在训练阶段实现三模态的联合学习，实现原生的高保真音视频同步，视频时长从 5 秒延长至 10 秒，并提供 1080p 分辨率，这在开源模型中属于领先水平。

2. 核心技术特点

1.统一多模态架构：模型基于改进的 MoE 结构，能够同时处理文本、图像、视频和音频信号，在同一个网络中学习三种数据的关系，从而实现语义、视觉与听觉的一体化输出。
2.10 秒 1080p 高品质视频：Wan 2.5 可生成时长 10 秒、分辨率 1080p 的视频，画面稳定流畅，为未来提升到 4K 提供基础。
3.原生音频生成：与前代模型需要后期配音不同，Wan 2.5 能直接生成对话、环境声、背景音乐等音轨，且与画面同步。Fal 博客强调，模型可以输出咖啡店聊天、风声、水流声等复杂声场，增强故事氛围。
4.强大的文本适配能力：新版本提升了对复杂提示词的理解能力，能根据用户描述生成符合场景的镜头语言，并提供更好的风格适配。
5.人类偏好强化学习 (RLHF)：相比 Wan 2.2，新模型加入了 RLHF 训练，使输出更符合用户的审美偏好和指令要求。
6.整体性能提升：官方数据显示，Wan 2.5 的生成速度提升约 25%，视频画质提高 30%，语义符合度提升 40%，动作复现提升 35%，并持续采用 Apache 2.0 开源协议。

Google 在 2025 年 5 月推出了第三代视频生成模型 Veo 3。Cybernews 文章指出，Veo 3 能生成最多 8 秒的 1080p 视频，并提供灵活的画幅比例、丰富的摄像机运动和更好的面部细节它支持文本到视频和图像到视频，并引入音视频同步技术，可以生成音乐、对白和环境音此外，Veo 3 为创作者提供可视化的编辑界面，但模型并未开源，只能通过 Google 的Vertex AI平台、Gemini网页，Gemini API等渠道访问。

2. 模型差异

Veo 3 与 Wan 2.5 在理念和使用策略上有所不同。Veo 3 采用闭源商业模式，用户需支付订阅费才能使用。相比之下，Wan 2.5 完全开源，允许个人和企业在本地或云端部署。另外，Wan 2.5 支持中文和国际语言，且无地域访问限制；Veo 3 在部分地区需经 VPN 才能使用。

3. 对比表

下表根据公开资料整理了 Wan 2.5、Google Veo 3 和 Kling 2.5 Turbo（另一个商用模型）的关键参数，对照时每个项目仅列出关键词或数字：

功能或参数	Wan 2.5	Veo 3
开源性质	✅ 开源	❌ 闭源
音视频同步	✅ 原生	✅ 同步
最大分辨率	1080p	720p
视频时长	10 秒	8 秒
中文支持	强	有限
地域限制	无	需 VPN
商业使用	可免费商用	有限制
API 接入	✅ 支持	✅ 支持

四、五个代表性提示词

为了更好地比较 Wan 2.5 与 Veo 3 的生成效果，可以使用同一组中文提示词测试两款模型。以下是五个适合实验的场景描述：(待更新)

咖啡店对话：描述一个阳光透入窗户的咖啡店，女主角在柜台点单，背景应有咖啡机轰鸣与顾客交谈声，生成的角色应说出“我要一杯拿铁”。

高速追车：描述一辆 F1 赛车在城市街道高速奔跑，镜头穿过桥梁与霓虹灯，配以紧张的电音背景和引擎轰鸣。

海边歌手：描绘夕阳下的海滩，一位女子弹着吉他歌唱，海浪声和海鸥鸣叫应与她的歌声相融合。

科幻行星：描写深蓝星球在宇宙中缓慢旋转，周围环绕着红色卫星，背景音乐采用电子氛围声，让画面呈现神秘科幻感。

极限攀岩：描述悬崖上的攀岩者冲上顶峰，广角镜头展示峡谷全景，背景包含呼啸风声和紧张的音乐。

用户可以用同样的提示词在 Veo 3 生成视频，通过对比音画同步程度、画面稳定性和风格还原度来评估两者差异。

五、Wan 2.5 的体验方式与可用平台

目前试用 Wan 2.5 的渠道较多，既有官方平台也有第三方社区服务：

通义万象官网：阿里巴巴云提供的官方平台，用户可以直接上传提示词生成视频，并提供部分免费额度。适合初学者了解模型基本能力。https://wan.video/
Fal.ai Playground：Fal.ai 提供了 Wan 2.5 的预览版及 API。Fal 博客建议开发者在 Playground 中尝试文本到视频和图像到视频功能。 https://fal.ai/
阿里云百炼平台：面向企业客户，提供高性能 API、付费订阅和定制服务，企业用户可按需选择计算资源。https://bailian.console.aliyun.com/
第三方整合平台：如 https://wananimate.org 等聚合多种模型的平台，用户只需订阅一个账户便可测试 Wan 2.5、Veo 3 等多模型，并比较效果。

六、背后公司的战略与未来方向

阿里巴巴在 2025 年云栖大会上公布了全面的 AI 战略。集团计划在三年内投资约 380 亿元人民币用于 AI 和云基础设施。阿里巴巴数字媒体与娱乐集团 CEO Eddie Wu 表示，大模型将“深度融入各种设备并具备长期记忆”，并强调开源是公司战略的一部分。自 2023 年发布 Qwen 大模型以来，阿里巴巴已经开源 300 多款 AI 模型，累计下载量超过 6 亿，衍生模型多达 17 万个。Wan 2.5 的推出证明阿里巴巴继续朝“开放生态”方向前进。在未来版本中，模型预计将支持 4K 分辨率、更长的视频时长以及更精准的音画同步。同时，团队还会利用 RLHF 与多模态对齐技术，使模型更好地理解长篇提示和复杂场景。

七、总结

Wan 2.5 的发布标志着开源视频生成迈入多模态时代。通过统一文本、图像、音频的模型架构，它提供了更真实、更丰富的影音体验，并大幅提升生成效率和画质。与 Google Veo 3 相比，Wan 2.5 在开源、中文支持和商业友好度方面具有明显优势。随着未来技术升级和生态完善，Wan 2.5 有望成为全球创作者的重要工具，也进一步彰显了阿里巴巴在 AI 视频领域的技术积累和开放姿态。