HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

小米语音技术负责人王育军:小米智能语音技术从 0 到 1 的实践之路

  • 2020-03-25
  • 本文字数:4118 字

    阅读完需:约 14 分钟

小米语音技术负责人王育军:小米智能语音技术从0到1的实践之路

近年来,智能语音发展势如破竹,各大厂纷纷推出智能语音助手试图在市场上抢占一席之地,但此过程中也难免出现产品同质化严重、缺乏创新的问题,InfoQ 希望借 AICon 大会的前采来了解小米智能语音技术的实践过程和应用难点。

从乐视到小米,一直在从事语音技术

2017 年以前,在各大媒体报道中很少提及小米语音技术,当时小米还没有自己的语音技术团队。因为业界有很多成功的语音技术合作伙伴,所以小米认为与他们的合作是理性的、性价比也很高。但其实小米早已经有了自己的云、大数据和 AI 平台,业务数据的集中化管理也做得可圈可点。


正是在这样的背景下,2017 年王育军加入了小米人工智能部门,在人工智能实验室语音组负责小米的语音识别、语音唤醒、声纹识别和语音合成方面的研发工作。在入职小米之前,王育军曾就职于乐视,负责为乐视电视和手机提供远近场语音识别、语音唤醒声纹识别和语义解析等技术。对开发者来说,研发的延续性尤为重要,由于之前一直从事语音技术工作,而当时小米也有电视业务,因此对他来说加入小米在技术上算得上是无缝“平移”。


小米在智能语音上的应用实践

从 0 到 1:解决生存问题

小米的技术研发主要服务于产品,因此技术积累也紧跟产品发展趋势。在小米语音技术的发展初期,团队首先要考虑自身生存问题,所以必须尽快实现从 0 到 1 的突破。


小米的设备生态囊括了手机、电视、音箱、手表、耳机等,由于当时需要尽快完成从 0 到 1 的技术突破,所以团队选择了可以热启动的、有经验的项目,比如小米电视。据王育军称,他入职第一个月,就看到了小米语音生态的优势。随后语音组用 4 个月时间开发了小米第一个语音识别系统,上线到小米电视,因为小米电视的用户、产品形态已经非常成熟了。当初团队还只有 4 个人。他们将这段经历戏称为“444 岁月”,意思是 4 个人,经过 40 多次试验,历时 4 个月,不但上线了语音识别系统,还发表了自己基于端对端语音识别的论文。


据王育军介绍,在发展初期,小米训练语音技术使用的数据都是真实业务数据,而应用到的语音识别工具是 Kaldi。之所以选择 Kaldi,是因为小米语音团队刚开始只有两名正式员工和两名实习生。要重新搭识别器,训练模型都不现实。Kaldi 是大家公共的技术语言,这样无论是开发还是招聘,上手成本都很低,并且直接遏制了打着“崇尚螺丝钉文化”旗号搞“技术自留地”的想法。

落地进入正轨,开始规划新技术

随着语音识别技术落地逐渐步入正轨,小米开始规划语音唤醒、声纹和语音合成技术。


经过几年的发展,小米语音团队从仅有 4 个人的“游击战”转入了正规军“阵地战”。步入正轨后就不能只选择热项目了,必须把没有数据、产品形态未知的冷项目也做好。这些冷项目“上线”后,小米面临着产品成本和性能的双重挑战。以小爱为例,小爱的用户量一直在猛增,计算成本需要优化,每天各个渠道都会反馈 Badcase 。所以团队要广揽人才,同时思考如何把这些事情尽量地系统化解决。模型需要自动更新,在线计算资源、优化算法和本地化要均衡发展。

繁华落尽,恰逢人员流失

在 2018 年到 2019 年期间,kaldi 模型存在迭代机制不灵活、声学语言不方便解耦的问题。算法离线化时,内存冗余。当创业般的激情被繁琐的工程细节和看似千篇一律的模型迭代消磨殆尽后,正逢所有团队都必须面临的“两年之痒。人员流失导致团队无法再去逆行开发去解决过去遗留的问题,有限的人力不得不投入到新技术预研上。这是每个语音团队必经之路,并非是小米语音团队特有。从事语音技术的人都清楚,从 0 到 1 容易,但是从 1 到 1.1 就要付出比 0 到 1 多很多倍的人力和财力。


目前,小米的语音技术用已经应用在了小米手机、音箱、电视和其他 40 多品类的小米生态链设备中的语音识别、语音合成、语音唤醒和声纹识别功能上。


在谈到未来小米智能语音技术的发展规划时,王育军表示:


从产品角度讲,未来的规划是围绕用户极致体验对产品进行深度打磨,不停打磨算法效果,优化多语种的语音识别和语音合成,提高语音识别率和语音合成的友好度,提升语音唤醒率,降低误唤醒率,让声纹技术广泛地嵌入到其他语音技术中,让用户使用声纹功能时能少注册甚至不注册,唤醒设备时可以做到少唤醒甚至是不唤醒直接交互。


从技术角度看,所有语音的技术都会进入小红利期。我们希望看到的局面是语音识别只需要一个模型就可以直接处理多通道语音信号,语言和声学模型不再异构,推理过程变得越来越简单有效。我们也希望看到语音合成可以由精雕细琢,变成规模化生产任何声音。这些都是端到端技术要解决的问题。在今天全民端到端的时代,交互领域内的人工智能技术同质化越来越重,语音技术中前后左右的融合技术模块,包括语音技术自己的上游会逐渐交融。在短期内,语音技术和 NLP 可能会你中有我我中有你。搞清楚自己发展方向之前,首先需要开放地拥抱这些技术边界的模糊化。


语言识别、语音合成的技术发展脉络

智能语音技术是最早落地的人工智能技术,也是在 AI 产品中应用最为广泛的一项技术。自从深度学习引入到智能语音领域后,这项技术才真正地从不温不火变为炙手可热。深度学习的引入使语音识别文字的准确率从 70%多,提升到了近 90%。这些改变很大程度上得益于算法的改进以及模型的迭代。


在算法方面,语音识别技术主要经历了隐含马尔科夫模型的引进,统计模型的应用,基于模板的技术复兴尝试以及深度学习。深度学习之后的一些演变,都是应用场景的变迁推动的,近场->远场->多通道语音识别,在王育军看来,这不完全属于算法演变。在模型方面,当下业界倾向于端到端语音识别模型,王育军则认为这种模型与传统识别模型只是形式上有所不同,但初衷相同,他表示:


大家理解的端到端是把多个小的并联或者串联的算法模块用一个算法模块(比如一个神经网络)代替,端到端的初衷一是为了弥补传统算法模块中一些为了简化问题提出的不实假设,二是防止不同模块的假设和优化目标不同,带来的错误传播。传统模型其实也一直在致力于解决这两个问题,无论是模型层面还是数据层面。


在端到端之前,我们为了达成一个语音任务,不得不分段标注,分段优化,粗暴地上下左右看待问题:在时间序列上左右看,分割感知和认知的不同层面。端对端技术很“优雅(cu bao)”地把这些问题“化解了”。


如今的深度学习技术正在从自然语言处理、图像、计算机方向不断地向语音技术渗透,技术迁移以天为单位。

语音合成面临的挑战

任何一项技术发展到一定阶段后都会迎来瓶颈期,语音技术也是如此。在语音合成方面,当前面临的问题是把合成从艺术做成规模化产品:过去语音合成是用一位声优,录出尽量多的专业录音数据,然后训练声学模型和声码器。目前研究者们需要时间来逐步论证数据采集、使用与标注的方法,使用户可以听见自己熟悉的声音。甚至可以弱化合成和语音编码,语音降噪的边界。

语音识别技术难点

语音识别的难点从来都没有变过,仍然是尽量使用户可以“自由场景自由说”。场景中面临的挑战是混响、竞争说话人、极低信噪比等。在说话方式上面临儿童发音不清楚、口音和方言多语言问题,这些挑战会长期存在。各方都在呼唤一套可以“兼容”自由场景自由说的产品方案,拉近技术边界和用户预期。当然从算法的逻辑上讲,无论是回归问题还是分类问题,都会面临“未见”的情况,这是永恒的难点。

解决跨设备“自由场景自由说”是当务之急

目前,语音技术也被应用在了很多不同的端上,比如智能家居场景中的很多终端,在王育军看来,语音技术是整个语音交互生态中的一环,要应用的智能家居中,语音生态的掌舵者,和其他环节要做的努力远比提升语音技术本身要多。具体到语音技术,我们面临的问题还是要解决跨设备“自由场景自由说”。举例来说,如果家居设备联动做得不好,会让用户唤醒小爱同学的时候一呼多应,让人欲言又止,无法自由说。再比如说声纹技术本来初衷是简化用户的语音操作,但随着声控设备的增加,每个设备都需要做声纹注册,增加了用户的使用成本。很多家居控制设备是家庭成员共享的,这些设备需要记住每个语音使用成员的偏好,上述提到的这些问题,小米的相关团队都在努力优化中。


近几年,业内讨论较多的一个话题是,语音识别面临的下一个突破要从技术上突破还是从应用场景上突破,对此王育军认为,技术突破和主宰性的应用场景总是交替出现。作为技术从业人员,他更希望利用技术去驱动应用。但近年来更多的时候是主宰性的应用场景复活了技术。比如说在 2007 年,很多语音界的人开始关注到了 GPU 在其他领域的应用,并把 GPU 迁移到声学模型训练中和推理中;2011 年,深度学习的成果已经在语音研究中逐渐形成,但直到 Siri 的出现才再次复活了手机语音助手;Google 开启了语音搜索和语音输入,人们才广泛地认可语音交互,算力也成为了炙手可热的资源。3G 和第一大波移动互联应用的才让研究者第一次把所谓的“铁三角”(场景,算力,数据)闭环。远场和端到端语音技术也是伴随着 4G 时代第二波移动互联的应用,才回到在人们视野中的。那个时代有人说智能等于一个设备可以触达的应用于服务。正是因为我们有了移动互联新贵的出现,才让手机和音箱更有“料”。


嘉宾介绍


王育军,小米语音技术负责人,2000 年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002 至 2004 年就职于 NEC 电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007 年到 2012 年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015 年就职于乐视,负责语音识别与自然语言理解技术。2017 年加入小米,负责语音技术。


AICon上海2020 本次也非常荣幸地请到了王育军老师担任“智能语音前沿技术”专场出品人,来自小米、搜狗、百度、快手等一线大厂的技术大牛将为你带来智能语音方面的最新实践经验分享以及趋势预测,想要和大牛面对面交流的同学不要错过机会!


除了智能语音,AICon 上海站还设置有智能金融、推荐广告技术及应用、AI 工程师团队建设与管理、认知智能、大数据计算和分析、NLP 等热门专场,邀请来自 BAT、微软、小米、华为、PayPal、快手等 50+ 一线 AI 技术大咖将带来更多精彩分享,目前大会 5 折报名限时最后一周!更多内容欢迎咨询小姐姐 Amy:18514549229(同微信),我们 8 月上海不见不散!点击官网了解更多~


2020-03-25 10:359436

评论

发布
暂无评论
发现更多内容

字节跳动大模型家族全员亮相,火山引擎全栈AI服务助力企业智能化转型

ToB行业头条

火山引擎 #大模型

GPT-4o 引领人机交互新风向,向量数据库赛道沸腾了

Zilliz

Zilliz GPT 向量数据库 GPT-4 gpt4o

BOE(京东方)董事长陈炎顺获2024年“David Sarnoff产业成就奖” “屏之物联”引领产业高质发展新变革

爱极客侠

Pencils Protocol Season 2 收官在即,新系列有哪些重磅权益呢?

石头财经

Pencils Protocol Season 2 收官在即,展望Season 3 及其权益

西柚子

Python实现水仙花数的查找与验证

测吧(北京)科技有限公司

测试

Python中的封装与访问控制权限

测吧(北京)科技有限公司

测试

软件测试 | Redis:性能最快的内存数据库及其基础使用

测吧(北京)科技有限公司

测试

软件质量的守门人——接口测试

霍格沃兹测试开发学社

Galxe已投资Pencils Protocol,投资者阵营正不断扩大

BlockChain先知

什么是大模型微调 (Fine-tuning)?

澳鹏Appen

人工智能 大模型 大模型微调 模型微调 大模型微调实践

Pencils Protocol 获合作伙伴 Galxe 投资,加快了生态进展

西柚子

精通Python推导式:元组、列表、字典、集合

测吧(北京)科技有限公司

测试

软件测试 | 关系型与非关系型数据库的区别

测吧(北京)科技有限公司

测试

软件测试 | Pytest 测试用例调度与运行

测吧(北京)科技有限公司

测试

软件测试学习笔记丨Spring Boot 统一返回结果模版

测试人

软件测试

Linux上执行内存中的脚本和程序

不在线第一只蜗牛

Linux 运维 服务器

探索Django:从项目创建到图片上传的全方位指南

快乐非自愿限量之名

sqlite 数据库 django

数据驱动制造:EMQX ECP 指标监测功能增强生产透明度

EMQ映云科技

mqtt emqx EMQX ECP

BOE(京东方)携全场景AI智慧显示等前沿技术亮相2024国际显示周 “科技+绿色”引领行业发展风向标

爱极客侠

Python类的构造方法与字符串表示

测吧(北京)科技有限公司

测试

软件测试 | 多表查询:外连接查询详解

测吧(北京)科技有限公司

测试

软件测试 | Pytest 参数化与基本装饰器用法

测吧(北京)科技有限公司

测试

Pencils Protocol Season 2 收官在即,展望Season 3 及其权益

BlockChain先知

【内容推荐】一课毕业,IoTDB 从入门到精通!

Apache IoTDB

交互式数字展厅能否成为智慧城市规划的下一个风口?

点量实时云渲染

智慧城市 数字孪生 实时云渲染 3D实时云渲染 线上展厅

小米语音技术负责人王育军:小米智能语音技术从0到1的实践之路_AI&大模型_李冬梅_InfoQ精选文章