北京时间8月21日,在美国旧金山举行的芯片行业顶级学术会议HOTCHIPS上,阿里巴巴达摩院发布了新一代AI语音FPGA芯片技术——Ouroboros,该技术能将语音生成算法的计算效率提高百倍以上。这是业界首款专用于语音合成算法的 AI FPGA芯片结构设计。
作为芯片领域的顶级峰会之一,HOTCHIPS 与其他顶级半导体会议的显著区别之一就是更侧重于商业应用,而非仅仅是学术项目,此次阿里发布的 Ouroboros 就是面向语音合成领域商业应用的 FPGA 加速计算方案。
阿里达摩院科学家在 HOTCHIPS 大会现场发布自研语音芯片技术
针对 ASIC 实现的性能仿真预估表明, Ouroboros 的设计可以实时运行 WaveNet 等业界先进的文字转语音(TTS,Text-to-Speech)算法 ,实现实时语音合成。
编者注:DeepMind于2016年发布WaveNet算法,可以生成类似真人发音的语音,效果比以前的模型都好,并且一个模型可以生成不同的声音;为了在语音生成中处理长跨度时间依赖问题,开发者设计了一个新的扩大连接的卷积框架,该卷积框架有非常大的感受野。
算法很好但难以进行实时计算是语音芯片的行业难题。Ouroboros 的突破在于:使用了端上定制硬件加速技术,替代云端服务器,有效避免了对网络连接和云端服务的强依赖性,解决了这一问题。
Ouroboros 原理图(来源:阿里达摩院)
以计算量最大的 AI 语音合成算法 WaveNet 为例,为了生成 1 秒的语音,CPU 和 GPU 需要消耗 50 秒的计算时间,完全无法满足语音合成对实时性的要求。但 Ouroboros 在 FPGA 环境下只需要 0.3 秒,大大提升计算效率,同时将整体服务成本降低 10 倍以上。
WaveNet 实践结果(来源:阿里达摩院)
为了达到这样的效果,达摩院的研发人员从硬件到软件进行了诸多协同设计与改良:
(来源:阿里达摩院)
Ouroboros的主要技术在硬件层面,达摩院的研发人员采用了片上环路结构支持迭代算法的思想,通过缓存和控制器直接在片上实现语音的循环生成,而不需要再从片外反复发送计算指令。这样的设计避免了大量进行计算核启动和数据搬运的开销,是针对自回归形式的语音合成模型所特有的结构,因此研发人员形象地使用衔尾蛇(Ouroboros)为其命名。
在软件层面,研发人员针对硬件结构进行优化算法的计算流程,有效利用缓存队列和稀疏化,在保证计算等效性的前提下进一步提升计算速度。
相比于其他纯粹从算法角度改良的方法,达摩院的软硬件结合方案没有额外的模型训练开销,并且可以同时支持WaveRNN、LPCNet等其他语音合成模型,兼顾高性能与高灵活性。
此次阿里发布的 Ouroboros 技术,同样适用于达摩院于今年 7 月发布的新一代的语音合成算法KAN-TTS,该算法将商用系统里的合成语音与原始语音的相似度提高到 97%以上。据了解,Ouroboros 芯片技术除了语音合成之外,还将支持 AI 语音识别。基于 Ouroboros 研发完整的语音 AI 芯片,有望率先在天猫精灵上落地。
评论