写点什么

支付宝多模态应用实验室研究员李宇明确认出席 QCon 北京

  • 2025-03-18
    北京
  • 本文字数:1216 字

    阅读完需:约 4 分钟

支付宝多模态应用实验室研究员李宇明确认出席QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


支付宝多模态应用实验室研究员李宇明已确认出席并发表题为《EchoMimic:多模态大模型驱动下的生成式数字人技术与应用》的主题分享。


随着多模态大模型的不断发展,生成式数字人的技术融合趋势也日益明显。通过结合视觉、语音和自然语言等多种模态数据,生成式数字人可以更加完整地呈现出真实世界中的人的行为和交流方式。这种技术融合趋势将进一步推动生成式数字人在虚拟现实、增强现实、人机交互等领域的广泛应用。


EchoMimic 是支付宝多模态应用实验室发布并开源的数字人技术项目,仅需输入一张参考图像、一段音频及一段手势序列,即可生成高质量人物动画视频,同时确保半身数字人与音频内容之间的协调。EchoMimic V1 论文中稿人工智能领域顶级国际会议 AAAI 2025,EchoMimic V2 论文中稿世界国际计算机视觉与模式识别会议 CVPR 2025。


本演讲将围绕 EchoMimic 系列开源生成式数字人项目,介绍生成式数字人领域最新进展、详细讲解 EchoMimic 背后的技术细节、以及生成式数字人相关应用场景,及该领域后续研究思路与方法。


李宇明现任支付宝多模态应用实验室研究员,是香港城市大学电子工程系博士。曾任 MINIEYE,腾讯自动驾驶实验室高级研究员。先后从事自动驾驶,量化交易,人脸攻防安全及 AIGC 等算法研发工作,在国际知名期刊会议发表论文 30 余篇,申请发明专利 20 余项,以核心成员参与完成省部级课题 3 项。他在本次会议的详细演讲内容如下:


演讲提纲

1. 传统数字人与生成式数字人技术背景

  • 传统数字人技术介绍

  • 生成式数字人技术介绍

2. EchoMimic(基于语音驱动的人像动画生成) 背后的技术

  • 技术细节与亮点

  • 实验结果分析

3. 应用场景探索

  • 生成式数字人结合大语言模型的实时交互

  • 生成式数字人结合音乐生成模型的 AI 创作

  • 生成式数字人结合商品的直播带货

4. 总结与展望

  • 生成式数字人存在的问题和挑战

  • 生成式数字人开发新范式

您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量人物相关数据获取、训练和推理效率、生成数字人自然度和真实性

演讲亮点

  • 生成式数字人领域的技术路线,最新进展,以及与多模态大模型应用结合趋势

  • EchoMimic 系列生成式数字人开源项目的技术细节

  • 生成式数字人领域后续研究方向

听众收益

  • 了解生成式数字人领域最新进展

  • 了解 EchoMimic 系列生成式数字人开源项目技术细节

  • 了解生成式数字人相关应用场景,及该领域后续研究思路与方法


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


2025-03-18 10:263910

评论

发布
暂无评论
发现更多内容

源码级深度理解 Java SPI

vivo互联网技术

Java Spring Boot dubbo spi

ABCNet:端到端的可训练框架的原理应用及优势对比

合合技术团队

人工智能 模型 端口 图片识别 文本识别

U-App移动统计算力升级!支持跨应用、多事件的打包计算

细说Js中的this

hellocoder2029

JavaScript

细说JavaScript闭包

hellocoder2029

JavaScript

从软件工程角度看测试

老张

软件工程 质量保障

Koordinator 1.0 正式发布:业界首个生产可用、面向规模场景的开源混部系统

阿里巴巴云原生

阿里云 云原生 Koordinator

从oracle到mysql模型转换的自动化实现

鲸品堂

语言 & 开发

一步步带你设计MySQL索引数据结构

程序知音

Java MySQL 数据库 编程 后端技术

Wallys Routerboard DR40x9 IPQ4019 IPQ4029 ,802.11AC 2x2 2.4G&5G Support HTTPS Support all the modules of Quectel

Cindy-wallys

低代码平台适用于大中型企业吗?

力软低代码开发平台

分布式任务批处理技术选型与实践

苏格拉格拉

分布式 批处理 分布式任务 数据分片 任务调度

Web3开发者指南,比较好用的 NFT API 服务推荐!

NFT Research

区块链 数据分析 NFT

K8s 有损发布问题探究

阿里巴巴云原生

阿里云 Kubernetes 云原生

【C语言】continue 关键字

謓泽

阿里云张建锋:核心云产品全面 Serverless 化

阿里巴巴云原生

阿里云 Serverless 云原生

分层架构最容易范的最昂贵错误

风铃架构日知录

分层架构 #java 服务层 封装业务逻辑

什么是代理服务器?它有哪些分类?

wljslmz

服务器 网络技术 11月月更 代理服务器

AntDB数据库与DSG强强联手,助力通信行业核心系统国产化

亚信AntDB数据库

aisware antdb AntDB数据库

一步步带你设计MySQL索引数据结构

程序知音

Java MySQL 数据库 后端技术

解决前端恶意代码侵入的一些思考

FinFish

小程序 安全 安全架构 小程序容器 前端安全

用 nodejs 搭建脚手架

coder2028

node.js

SPL比SQL更难了还是更容易了?

石臻臻的杂货铺

sql SPL 11月月更

python如何处理程序异常

芥末拌个饭吧

Python 11月月更

细说nodejs的path模块

coder2028

node.js

理解Nodejs中的进程间通信

coder2028

node.js

阿里P8面试官总结的《2022java技术总结》,解决90%以上的技术面

程序知音

Java 程序员 后端技术 Java面试题 Java面试八股文

手写vue-router核心原理

hellocoder2029

JavaScript

技术新风口:超级App

FinFish

数字化转型 数字化 技术趋势 Gartner预测

Wallys|industrial wifi6 router/ Qualcomm IPQ8072A 4T4R support QCN9074/QCN6024 MOUDLE OPENWRT 802.11AX 10GE port 10G SFP

Cindy-wallys

一个更快的YOLOv5问世,附送全面中文解析教程

OneFlow

人工智能 深度学习 训练数据

支付宝多模态应用实验室研究员李宇明确认出席QCon北京_阿里巴巴_QCon全球软件开发大会_InfoQ精选文章