写点什么

阿里云开源视频生成大模型 I2VGen-XL,2 分钟生成高清电影级效果视频

  • 2023-09-06
    北京
  • 本文字数:749 字

    阅读完需:约 2 分钟

大小:434.29K时长:02:28
阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频

近日,阿里云推出全新视频生成大模型 I2VGen-XL,并在魔搭社区开放体验,用户上传一张图片后 2 分钟左右即可生成一段 1280*720 的高分辨率视频。据介绍,该模型的训练还使用了多种风格的视频数据,可生成科技感、电影色、卡通风格和素描等类型丰富的视频。目前,I2VGen-XL 的模型和代码均已开源。

 

在此之前,阿里云曾推出 AI 绘画创作大模型通义万相(基座模型 Composer)和可控视频生成模型 VideoComposer,团队在该领域发表 60 多篇 CCF-A 类论文,并在国际顶级视觉竞赛中获得 10 余项冠军。

 

和 AI 绘画创作大模型相比,视频生成大模型的技术门槛更高,其需要克服文本和视频内容匹配度、视频画面质量、画面连续性等诸多技术挑战。在此之前,阿里云和微软等科技公司相继推出一系列可控视频生成研究成果,例如用户可通过定义空间布局、运动模式等条件来生成视频,但其画面清晰度难以满足真实场景应用的需求。

 

针对该问题,阿里云进一步提出创新思路,I2VGen-XL 模型设计了两个阶段:首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,随后通过视频扩散模型(VLDM)来提高视频分辨率,并同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性,最终实现 1280*720 高分辨率的突破,并且在画面细节的展现上大幅领先现有模型。

 

I2VGen-XL 模型研发负责人表示,未来将进一步实现 2K 超清效果,可应用于短视频内容生产、电影制作等场景。


I2VGen-XL流程图

 

目前,I2VGen-XL 模型已吸引国内外用户和开发者的广泛体验和二次开发,涌现了大量创意 AI 视频生成内容,例如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等等……知名 AI 社交媒体分析师 Ahsen Khaliq 在推特发布多条由该模型生成的视频效果,并表示模型在清晰度、纹理、语义和时间连续性方面有优势。



模型体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

2023-09-06 11:278471

评论

发布
暂无评论
发现更多内容

从做技术到做技术管理

石云升

极客时间 技术管理 1月月更 技术领导力实战笔记

2022年度回顾|龙蜥这一年:协同开放 众行致远

OpenAnolis小助手

开源社区 龙蜥 贡献 协同开放

我理解的卓越工程

agnostic

卓越工程

软件测试/测试开发 | 接口自动化测试之JSON Schema模式该如何使用?

测试人

软件测试 接口测试 测试开发 JSON Schema 测试开发自动化测试

一种面向业务配置基于JSF广播定时生效的工具

京东科技开发者

jdk 后段技术 企业号 1 月 PK 榜 ducc jsf

模块二作业 (架构实战训练营)

Justin

架构实战营

Electron打包错误的踩坑小记

茶无味的一天

前端 Electron Node electron实战

Transformer 再添一员,比 Swin 更强的 DiNAT

Zilliz

企业数字化转型,工具先行

飞算JavaAI开发助手

全球化商家平台技术探索与演进

阿里技术

全球化 架构演进

设计文档概述

五毛

设计原则

标准发布 |《企业数字化成熟度模型IOMM》(中小企业)发布

信通院IOMM数字化转型团队

数字化转型 IOMM ICT深度观察

喜报|HarmonyOS开发者社区连获业内奖项,持续深耕开发者生态

HarmonyOS开发者

HarmonyOS

【春季2月A-CSM特惠周末班】ScrumMaster进阶课程 · CST导师亲授

ShineScrum

敏捷教练 高阶SM 敏捷教练技能

如何通过Java代码在PDF中插入、替换或删除图像?

在下毛毛雨

Java PDF 图像

KaiwuDB CTO 魏可伟:1.0 时序数据库技术解读

KaiwuDB

时序数据库 多模数据库 技术优势

代码影响范围工具探索

京东科技开发者

测试 源代码 企业号 1 月 PK 榜 代码影响范围

采购LED显示屏要注意的五大技术参数

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

【新春特惠周末班】2月4-5日在线CSPO“价值交付课程” | 全国招生

ShineScrum

产品负责人 CSPO认证 CSPO

TiCDC 源码阅读(三)TiCDC 集群工作过程解析

PingCAP

TiDB 源码解读

也谈证券行业数字化转型中的业务与IT融合(上)

王和全

敏捷 需求管理 需求 数字化转型 需求分析

Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

一颗小树

“会说话”的产品包装?“码”上查看!

旺链科技

区块链 区块链技术 区块链溯源

2022年度 FinClip 扩展SDK推荐!

FinClip

京东探索研究院 | 2023年十大科技趋势

京东科技开发者

京东 技术分享 京东云 技术预测 企业号 1 月 PK 榜

一图回顾博睿数据的2022

博睿数据

年度报告 博睿数据

开源SPL强化MangoDB计算

石臻臻的杂货铺

开源 SPL

QEMU与KVM架构介绍

Linux内核拾遗

Linux 虚拟化 qemu kvm

“零”代码改动,静态编译让太乙Stable Diffusion推理速度翻倍

OneFlow

人工智能 深度学习

一份价格,双份收货,彻底搞定 PPT,兔年解放你自己

博文视点Broadview

【春季2月CSM认证周末班】提前报名特惠--“全球金牌”课程CST导师亲授

ShineScrum

ScrumMaster 项目经理 ScrumMaster认证 CSM认证

阿里云开源视频生成大模型I2VGen-XL,2分钟生成高清电影级效果视频_阿里巴巴_凌敏_InfoQ精选文章