AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon 北京

  • 2025-03-25
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:839.89K时长:04:46
多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。


吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型带来对话交互变革

  • 传统语音系统在语义理解、场景适配、多模态协同的局限性

  • 大模型驱动的多模态能力重构人机交互逻辑

  • 对话式 AI 语音智能体技术的突破与创新

2. 技术引擎:大模型融合的对话式语音 AI 技术架构

  • 多模态语音基座:端到端语音表征学习 + 大语言模型微调框架

  • 动态场景感知:声纹/情感/环境音的多维度信号融合

  • 推理加速:流式语音处理与模型蒸馏的工程优化

  • 语音-语义联合建模:基于 Prompt 的上下文对话理解增强

  • 噪声场景鲁棒性:对抗训练与声学特征解耦技术

  • 个性化交互:用户画像实时嵌入的动态参数微调

3. 场景落地:跨行业应用实践与教训

  • 教育场景:AI 口语教练技术解析与应用

  • 医疗领域:智能问诊辅助系统

  • 社交领域:基于大模型的智能伴聊、助聊

  • 嵌入式场景:对话式 AI 在 IoT 场景的效果优化

4. 未来展望:多模态交互的无限可能

  • 脑机接口与语音 AI 的融合探索

  • 3D 空间音效与 AR 场景的沉浸式交互

  • 对话式 AI 与硬件结合的多种展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题

  • 对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题

  • AI 对 Prompt 的理解程度带来的角色塑造和对话问题

  • AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题


演讲亮点

  • 分享对话式语音 AI 智能体的实现逻辑

  • 提供不同行业的应用实践案例

  • 大模型结合语音训练的经验和教训

  • AI 在音视频技术升级上的实践

  • 对话式 AI 在社会公益和社会价值的落地实践


听众收益

  • 了解教育、语聊、社交、客服等不同场景下的 AI 落地经验

  • 了解大模型与对话式 AI 结合的技术细节和实现路径、教训

  • 了解对话式 AI 在硬件领域(AI 玩具)的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-25 12:263690

评论

发布
暂无评论

week2 作业

Geek_2e7dd7

学习总结—第二周

于江水

架构是训练营

Spring Aware 你不能不知道的事

CoderLi

Java spring 程序员 源码分析 后端

Week2学习总结

wyzwlj

极客大学架构师训练营

架构师训练营第2周作业

Season

极客大学架构师训练营

架构师训练营作业-Week2

wyzwlj

极客大学架构师训练营

Java参数传递分析

游侠最光阴

Java

命题作业—第二周

于江水

极客大学架构师训练营

用 Explain 命令分析 MySQL 的 SQL 执行

程序员历小冰

MySQL explian

游戏夜读 | 什么是全力以赴?

game1night

做产品少走弯路:你必须掌握的知识

我是IT民工

产品 互联网 方法论 思维方式 知识体系

架构师训练营 - 作业 - 第二周

心在飞

极客大学架构师训练营

程序员的晚餐 | 6 月 15 日 红烧带鱼和清蒸多宝鱼

清远

美食

第二周学习总结

Geek_5d0795

极客大学架构师训练营

Flink on Zeppelin (2) - Batch篇

Geek_8o1tcx

大数据 flink 流计算 Zeppelin

架构师训练营 第二周作业

大丁💸💵💴💶🚀🐟

服务治理之轻量级熔断框架:Resilience4j

01Running

架构师训练营第二周课后作业二

不谈

极客大学架构师训练营

架构师训练营 第二周 作业

一雄

极客大学架构师训练营 作业 第二周

第二周作业

Geek_5d0795

极客大学架构师训练营

架构师训练营第二周作业

W_T

手撕设计原则:依赖倒置

JefferLiu

设计模式 架构师 面向对象设计 面向对象设计原则

week2 学习总结

Geek_2e7dd7

ARTS - Week 3

Khirye

ARTS 打卡计划 arts

第二周 软件设计原则

WW

第02周 开发编程框架 学习总结

Jaye

0613总结

W_T

架构师训练营第二周课后作业一

不谈

极客大学架构师训练营

Class-only Protocols - class or AnyObject

SwiftMic

swift AnyObject

架构师训练营 第二周 学习总结

一雄

学习 极客大学架构师训练营 第二周

依赖倒置原则

极客李

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章