
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。
支付宝多模态应用实验室研究员李宇明已确认出席并发表题为《EchoMimic:多模态大模型驱动下的生成式数字人技术与应用》的主题分享。
随着多模态大模型的不断发展,生成式数字人的技术融合趋势也日益明显。通过结合视觉、语音和自然语言等多种模态数据,生成式数字人可以更加完整地呈现出真实世界中的人的行为和交流方式。这种技术融合趋势将进一步推动生成式数字人在虚拟现实、增强现实、人机交互等领域的广泛应用。
EchoMimic 是支付宝多模态应用实验室发布并开源的数字人技术项目,仅需输入一张参考图像、一段音频及一段手势序列,即可生成高质量人物动画视频,同时确保半身数字人与音频内容之间的协调。EchoMimic V1 论文中稿人工智能领域顶级国际会议 AAAI 2025,EchoMimic V2 论文中稿世界国际计算机视觉与模式识别会议 CVPR 2025。
本演讲将围绕 EchoMimic 系列开源生成式数字人项目,介绍生成式数字人领域最新进展、详细讲解 EchoMimic 背后的技术细节、以及生成式数字人相关应用场景,及该领域后续研究思路与方法。
李宇明现任支付宝多模态应用实验室研究员,是香港城市大学电子工程系博士。曾任 MINIEYE,腾讯自动驾驶实验室高级研究员。先后从事自动驾驶,量化交易,人脸攻防安全及 AIGC 等算法研发工作,在国际知名期刊会议发表论文 30 余篇,申请发明专利 20 余项,以核心成员参与完成省部级课题 3 项。他在本次会议的详细演讲内容如下:
演讲提纲
1. 传统数字人与生成式数字人技术背景
传统数字人技术介绍
生成式数字人技术介绍
2. EchoMimic(基于语音驱动的人像动画生成) 背后的技术
技术细节与亮点
实验结果分析
3. 应用场景探索
生成式数字人结合大语言模型的实时交互
生成式数字人结合音乐生成模型的 AI 创作
生成式数字人结合商品的直播带货
4. 总结与展望
生成式数字人存在的问题和挑战
生成式数字人开发新范式
您认为,这样的技术在实践过程中有哪些痛点?
高质量人物相关数据获取、训练和推理效率、生成数字人自然度和真实性
演讲亮点
生成式数字人领域的技术路线,最新进展,以及与多模态大模型应用结合趋势
EchoMimic 系列生成式数字人开源项目的技术细节
生成式数字人领域后续研究方向
听众收益
了解生成式数字人领域最新进展
了解 EchoMimic 系列生成式数字人开源项目技术细节
了解生成式数字人相关应用场景,及该领域后续研究思路与方法
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。

评论