写点什么

实时语音变声技术原理解析:“大叔变小萝莉”

  • 2019-10-30
  • 本文字数:1127 字

    阅读完需:约 4 分钟

实时语音变声技术原理解析:“大叔变小萝莉”

游戏社交化是近年来游戏行业发展的重要趋势,如何提高游戏的社交属性已成为各大游戏厂商游戏策划的重要组成部分。游戏中玩家的互动形式也不再止于语音聊天,有了更为高阶的需求,比如:玩家在“吃鸡”的时候,会通过外带的声卡或者其他的技术手段进行“变声“。大叔变萝莉,萌妹变宅男,这些都让游戏里的语音互动变得更具娱乐性。


在这股社交娱乐大浪潮下,腾讯云游戏多媒体引擎 GME 创新性地引入了变声的玩法,让变声成为了游戏内置的功能。只要接入 GME 的 SDK,游戏研发厂商就可以提供给玩家更加丰富有趣的游戏内语音体验,让玩家在不借助任何外部设备的情况下,实现抠脚大汉变声萝莉、变声口吃的的有趣玩法。


目前,腾讯云 GME 的这个变声功能已应用在手机 QQ 上,被亿万 QQ 用户所使用。用户在拨通 QQ 电话或者发送语音消息时,选择 “变声”,就可以在“萝莉”、“歪果仁”、“熊孩子”等数十种特色音效中自由切换。


年轻人追求个性,喜欢猎奇。手机 QQ 这个变声功能帮助用户展现自己的“多面人格”,让聊天更有趣,广受用户好评。



用户使用反馈


变声的原理,即是通过改变人声的音调、音色,使输出声音在感官上与原始声音不同。人耳分辨人声,是通过音色和音调两个维度去做区分。日常所说的男中音、男高音,就是音调不同;音调一致的情况下,我们依然能通过音色去区分人声。变声器,正是借助对声音音色和音调的双重复合改变,实现输出声音的改变。



在音频后处理领域,“变声”是一个相对常见的功能,语音消息的变声不难,但是在 QQ 电话中实时变声,这可是个大挑战。要保证在用户无感的超低延时下对人声进行特殊处理,怎么办呢?


为了降低时延,技术团队想了不少办法:数据采集阶段,用自研前处理替换系统的前处理,把时延降低了 30ms;处理过程中,支持更少长度的处理(常规变声处理必须定长 20ms 处理,这 20ms 等待时间也会体现在总时延上面),能将延时控制在 30ms 以内。而人耳不会感受的最大延时是 40ms,这个延时基本不被用户所感知。最终实现了用户在 QQ 里体验到的实时语音变声功能。


“趣味变声”也集成到了腾讯云游戏多媒体引擎 GME 产品能力中。只要在游戏中集成 GME 的 SDK,就能实现 QQ 通话里的趣味变声玩法,丰富游戏玩家的社交体验,让游戏玩家爱上沟通,通过社交属性有效地提升游戏热度。


腾讯云游戏多媒体引擎 GME(Gaming Multimedia Engine)提供一站式游戏语音解决方案。针对不同游戏场景深度优化,覆盖休闲社交类、MOBA 类、MMORPG、FPS 等多种游戏类型。支持多人实时语音、3D 位置语音、语音消息和语音转文本等功能。功能完备,接入门槛低,一个 SDK 即可满足多样化的游戏内语音需求。


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接:


https://mp.weixin.qq.com/s/D3VGrgHshsWp61f0KxNDwg


2019-10-30 13:384380

评论

发布
暂无评论
发现更多内容
实时语音变声技术原理解析:“大叔变小萝莉”_文化 & 方法_云加社区_InfoQ精选文章