写点什么

超越 Sora!阿里万相大模型正式开源,消费级显卡也能跑

  • 2025-02-27
    北京
  • 本文字数:1239 字

    阅读完需:约 4 分钟

大小:642.67K时长:03:39
超越Sora!阿里万相大模型正式开源,消费级显卡也能跑

2 月 25 日消息,阿里云旗下视觉生成基座模型万相 2.1(Wan)重磅开源,此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

 

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI



据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。

 


在算法设计上,万相基于主流 DiT 架构和线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩展的预训练策略等。以 3D VAE 为例,为了高效支持任意长度视频的编码和解码,万相在 3D VAE 的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长 1080P 视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了 29%的推理时内存占用。

 

万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相均达到了业界领先表现,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。

 


(万相在 14 个主要维度测试中斩获 5 项第一及平均分第一)

 

从 2023 年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过 10 万个,是全球最大的 AI 模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。 

生成效果如何


下面我们可以看下万相 2.1 的实际生成效果。

 

输入 Prompt:

体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质, 动作完整。

 

生成图片:



输入 Prompt:

体育摄影风格,中国皮划艇运动员在激流回旋比赛中,于湍急的水流中用桨快速划水,灵活地绕过一个又一个障碍物。他身着专业运动服,肌肉线条明显,表情专注而坚定,展现出出色的操控技术和顽强的拼搏精神。背景是清澈的河流和翠绿的山峦,画面充满动感与活力。近景特写,运动员在空中翻转滑板,动作完整,4K, 高清画质。


生成图片:



输入 Prompt:

一段超速 POV 镜头,摄像机疾驰穿越一条阳光下的中国乡村小路,镜头紧跟着一个在空中飞行的穿着休闲服休闲鞋的中国女子的背后,她身体直立展开双臂,风吹动她的头发和衣服。


生成图片:



2025-02-27 12:549799

评论 5 条评论

发布
用户头像
666666
2025-02-27 14:33 · 福建
回复
用户头像
111111
2025-02-27 14:02 · 广东
回复
1111
2025-02-27 14:02 · 广东
回复
11111
2025-02-27 14:09 · 广东
回复
11111111
2025-02-27 14:09 · 广东
回复
没有更多了

数据产品经理那点事儿三(合集)

松子(李博源)

大数据 深度思考 高效工作 数据产品经理

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏

程序知音

The Architecture of Wechat & SMS

David

架构实战营

Fluid 助力阿里云 Serverless 容器极致提速

阿里巴巴云原生

阿里云 Serverless 云原生 Fluid ASK

数据产品经理那点事儿二(合集)

松子(李博源)

大数据 深度思考 高效工作

bootstrap input框回车后重新刷新页面问题

六月的雨在InfoQ

bootstrap Input 9月月更 表单提交

极客时间架构训练营模块一作业

李晨

架构

字节、美团、滴滴以及蚂蚁金服Java后端面试过程

收到请回复

Java 程序员 面试 项目 语言 & 开发

PLG SaaS 案例:如何实践外链自动增长策略?

程序员泥瓦匠

SaaS

2022秋招最新整理上千道Java面试攻略,近500页PDF文档

收到请回复

程序员 Java 面试 跳槽 语言 & 开发 秋招

Python语法之函数

芯动大师

云效DevOps--效能无极限

六月的雨在InfoQ

云效 Codeup 云效流水线 Flow 9月月更 Thoughts

信创升级 | 秒云与人大金仓完成兼容性互认证

MIAOYUN

数据库 信创 国产数据库 信创云 容器云平台

你用对了么?对象文件网关 VS 分布式文件存储

焱融科技

云计算 分布式系统 对象存储 高性能 文件存储

Python语法之集合

芯动大师

集合 9月月更 Python语法

龙湖千丁基于 ACK@Edge 的云原生智慧停车系统架构实践

阿里巴巴云原生

阿里云 Kubernetes 云原生

不会还有程序员不知道跳槽季靠这1700道java面试题就能平淌大厂吧

程序知音

Java java面试 后端技术 秋招 Java面试题

ESP32-C3 应用 篇(实例一、通过MQTT协议连接ONENET上报传感器数据,云平台下发灯光调色)

矜辰所致

mqtt ESP32-C3 9月月更 项目应用 OneNet

Spring 注解 @Resource 与 @Autowired 的区别

六月的雨在InfoQ

注解 依赖注入 @Autowired @Resource 9月月更

com.alibaba.fastjson 对象转json剔除字段

六月的雨在InfoQ

问题处理 Fastjson index Elastic Search 9月月更

开发者有话说|一名高中生的编程之路

Loken

个人成长

开发者测评:相比 Harbor,我选择 ACR 的三点原因

阿里巴巴云原生

阿里云 Kubernetes 容器 云原生 ACR

5G网络行业切片SLA初探

鲸品堂

5G 网络切片

融云x白鲸《2022社交泛娱乐出海白皮书》

融云 RongCloud

互联网 白皮书 融云

NFTScan 与 Banksea Finance 在 NFT 源数据层面达成战略合作

NFT Research

区块链 NFT 合作 web3

软件开发正确打开方式:低代码+微服务

力软低代码开发平台

天猫精灵DIY--技能应用

六月的雨在InfoQ

天猫精灵 功能模型 9月月更 公共实体 语音交互

Python语法之元组

芯动大师

Python 元组 9月月更

看大神如何用Maya再现神剧《绝命毒师》主角/场景

Renderbus瑞云渲染农场

旷世巨作!20多位架构师携手打造的“Java 面试核心宝典”限时开源

Geek_0c76c3

Java 数据库 开源 程序员 架构

面试了一位4年Java的程序员,张口就要35K,还什么都不会...

收到请回复

Java 语言 & 开发 八股文

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑_AI&大模型_褚杏娟_InfoQ精选文章