
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。
网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。
吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:
演讲提纲
1. 大模型带来对话交互变革
传统语音系统在语义理解、场景适配、多模态协同的局限性
大模型驱动的多模态能力重构人机交互逻辑
对话式 AI 语音智能体技术的突破与创新
2. 技术引擎:大模型融合的对话式语音 AI 技术架构
多模态语音基座:端到端语音表征学习 + 大语言模型微调框架
动态场景感知:声纹/情感/环境音的多维度信号融合
推理加速:流式语音处理与模型蒸馏的工程优化
语音-语义联合建模:基于 Prompt 的上下文对话理解增强
噪声场景鲁棒性:对抗训练与声学特征解耦技术
个性化交互:用户画像实时嵌入的动态参数微调
3. 场景落地:跨行业应用实践与教训
教育场景:AI 口语教练技术解析与应用
医疗领域:智能问诊辅助系统
社交领域:基于大模型的智能伴聊、助聊
嵌入式场景:对话式 AI 在 IoT 场景的效果优化
4. 未来展望:多模态交互的无限可能
脑机接口与语音 AI 的融合探索
3D 空间音效与 AR 场景的沉浸式交互
对话式 AI 与硬件结合的多种展望
您认为,这样的技术在实践过程中有哪些痛点?
不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题
对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题
AI 对 Prompt 的理解程度带来的角色塑造和对话问题
AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题
演讲亮点
分享对话式语音 AI 智能体的实现逻辑
提供不同行业的应用实践案例
大模型结合语音训练的经验和教训
AI 在音视频技术升级上的实践
对话式 AI 在社会公益和社会价值的落地实践
听众收益
了解教育、语聊、社交、客服等不同场景下的 AI 落地经验
了解大模型与对话式 AI 结合的技术细节和实现路径、教训
了解对话式 AI 在硬件领域(AI 玩具)的落地实践
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。

评论