如今,语音已经成为万物互联时代人机交互的关键入口,在智能家居、智能汽车、穿戴式设备等场景不可或缺。我们看到的各类便捷的智能语音应用,背后是语音识别、语义理解、语音合成等技术的创新发展。全球化背景下,AI 多语种智能语言技术在各行各业的应用越来越广泛。
科大讯飞作为智能语音行业的执牛耳者,在多语种智能语言技术上不断进行技术创新和应用落地实践,迎接市场环境变化下的新挑战。7 月 15 日,科大讯飞在武汉的“讯飞乐享 A.I. 技术沙龙”专场,面向开发者,对科大讯飞在 AI+ 多语种智能语言技术上的研发、实践、求索进行了全方位的解读和分享。
多语种语言技术面临三大挑战
活动开场,讯飞 AI 研究院副院长方昕带来了《科大讯飞多语种智能语言技术进展与应用落地》的主题分享。在他看来,当下无论是从社会刚需应用场景,还是“一带一路”等国家战略、信息安全等方面考虑,布局多语种语音语言技术都显得尤为重要。但是,如今多语种语言技术仍然面临三大挑战:多语种语言分析研究和专家知识积累不足;多语种训练数据稀缺,难以支撑大量语种系统研发;技术级联误差扩散和众多系统批量构建难题。
首先是多语种语言分析研究和专家知识积累不足。多语种智能语言技术的实现,需要根据语言积累构建语种系统,不同语言之间差异很大,所以需要根据不同的语言特性单独建模。世界上大概有上千种语言,使用人口最多的语言仅十多种,其他的小语种的语言分析积累不足,为语种系统的构建带来不小的困难。据方昕介绍,阿拉伯语是科大讯飞在研究多语种系统时面临的最难的语种之一。
其次是多语种训练数据稀缺,难以支撑大量语种系统研发挑战。目前,通用语音识别率达 98%,背后是大量训练数据的支持,为此科大讯飞付出了数千万元的数据成本。然而一些小语种的数据训练数据只有几百小时,如果以中文的数据积累为标准,难度可想而知。
最后就是技术级联误差扩散和众多系统批量构建难题。以语音翻译为例,传统的做法是先用语音识别成文本,再用机器翻译成其他语言。在这个环节中,一旦语音识别出现错误,翻译结果可能谬以千里。在构建多语言系统方面,据方昕介绍,构建 4 类技术系统,需要做 70 个语种的云端和本地的系统,再应用到 N 个领域,背后的工作量和耗费都是海量级。
科大讯飞的应战
针对这三大挑战,科大讯飞在数据、算法、平台三个层面搭建了多语种智能语言技术创新技术框架,具体包括基于人机协同的多语种数据标注平台,多语种端到端统一建模框架,无监督 / 弱监督模型训练技术,语音 / 图片翻译多任务协同优化,以及多语种模型自动训练及定制优化平台。
在数据层面,除了耗费高额成本自行采集,科大讯飞还与澳鹏、数据堂等二十多家业内主流数据公司达成合作,与北京外国语大学、上海外国语大学等多所重点外语院校深度合作,确保数据质量。
目前,科大讯飞已经初步构建了一套多语种整体的多语言系统,包含了数十个语种的语音合成、语音识别、图文识别、机器翻译系统,提出的解决方案包括语音助手、智能家居、AI 字幕、内容审核等,提供通用解决方案和重点领域的定制化解决方案服务。
以译制行业为例。在坚持文化自信和文娱行业大爆发的背景下,译制领域迎来了“短平快”和“高精尖”的新业态。所谓短平快,指的是对翻译内容要求不高、单个译稿内容少、整体译稿数量多和交稿时间紧。行业发展的新动能在于,需要能够提高行业整体效能的产品解决方案,帮助不同团队快速适应行业的快速发展,而 AI 技术很好地解决了这个问题,通过替代人工低效环节,释放人员精力,聚焦翻译质量,提高产能和服务质量。
武汉译满天下科技有限公司产品经理金炜龙表示,译制领域的痛点有三:一是人工翻译一部作品时需要来回切换软件查词,反复完整观看视频,翻译效率低;二是原视频没有原文字幕,译员需要先看一遍视频,手动抄录对话字幕、对准字幕时间轴;三是对已有内嵌字幕的视频进行字幕提取。
针对这些痛点,以及自身用户体量较大的现状,译满天下基于讯飞的机器翻译服务,开发出一键翻译功能,实现快速进行字幕翻译和字幕制作;基于讯飞开放平台的语言转写功能,一键完成人工填写和打轴操作;基于讯飞开放平台的印刷文字识别功能,加上自己的优化算法,解决字幕提取和翻译难题。
下一站,发力出海
成立至今 22 年,科大讯飞已经拥有语音及语言国家工程实验室和认知智能国家重点实验室,核心 AI 能力包括语音识别、语音唤醒、语义 NLU 等。下一站,科大讯飞将在出海上发力。
白鲸出海数据显示,2019 年中国出海企业共 7415 家,游戏、社交、短视频直播、手机及硬件、电商等占据了 80% 以上的份额。目前,科大讯飞在手机和硬件领域应用比较多,与出海劲头强势的华为、小米等企业在手机和可穿戴设备等方面都有不少合作。
讯飞 AI 多语种业务部总经理周传福介绍道:“目前整个多语种落地还是瞄准国内出海的企业,先跟国内企业一起出海把语音技术真正落实到实际应用中去,下一步整个客户会瞄准国际市场。”2019 年至今,科大讯飞出海主要瞄准谷歌和亚马逊等,想要在重点领域超过他们,引领海外语音市场。
不过在出海过程中,多语种落地也遇到了不少困难:场景多,设备多和语种环境复杂。周传福解释:“场景特别多,有家庭场景、办公场景、商场、高噪等各种应用场景;设备也特别多,像手机、车机、音箱大屏、家居家电等;在出海的过程我们可以不断地对效果做优化,但海外语种的工作量就太大了,在多语种情况下如何布局,是我们面临的问题。”
科大讯飞给出了系统性的规划。语种分类方面,科大讯飞将语种分为重点语种、主要语种和其他语种三类,计划在未来 3 年实现全球数十个主流语种支持,并实现包括广东话、四川话在内的多个中文方言支持。
在语音助手解决方案方面,科大讯飞主要面向手机、音箱、大屏等需要助手功能的场景,通过海量数据训练来优化重点垂类和打造最自然的识别效果。所谓垂类指的是手机语言助手调用联系人、天气、音视频等。除此之外,语音助手解决方案在海量数据的基础上,支持语种混说和语音识别。
在 AI 字幕解决方案方面,科大讯飞针对短音视频场景,推出短音视频处理引擎,可将几分钟内的音频文件,快速反馈结果,涵盖时间戳、中英文双字幕等功能,帮助视频制作用户解决字幕添加问题。
在内容审核方面,科大讯飞给出的解决方案,通过获取文本图片和音视频,基于本土环境,进行图片识别和身份语音识别,识别出不合规的内容自动分类归档,确定不过关的直接下架。目前主要采取机器为辅、人力为主的方式,后续在和视频直播或内容审核合作伙伴的合作中,继续优化方案。
在语音云方面,基于 11 年的积累,科大讯飞目前在新加坡有部署,后续也会在欧洲部署,不仅可以提供基于公有云的服务,还能满足私有化部署需求。
算法层面开放,科大讯飞建设 AI 生态的野心
讯飞近几年一直重点发力“平台 + 赛道”的战略,为了进行生态建设,讯飞开放平台承载着讯飞在 AI 生态建设的野心。讯飞开放平台产品总监孙力健表示:“讯飞开放平台把基于科大讯飞对于语音技术和语义理解和 AIUI 的研究,形成接口的形式对外开放,把一些在垂直行业沉淀的场景化的解决方案开放给大家。”从 2010 年成立至今,讯飞开放平台拥有 330 万生态合作伙伴、433 项 AI 能力及方案、连接 31 亿终端。
“我们之前做的很多事情是把讯飞的语音技术、图像 AIUI、语义理解和翻译放在开放平台上给所有开发者和企业用,现在也会做一些偏平台型的事情,我们愿意把一些根本的算法和平台的东西开放出来,让很多算法的研究人员也加入到这里来,让他们把他们更好的东西放在我们这儿,得到更好地应用和推广。”孙力健强调:“无论你是什么角色或者有什么需求,都可以联系我们,在我们开放平台上一定会找到解决你现在需求的方案。”
目前,讯飞开放平台在招聘行业推出了全流程智能化招聘解决方案,在 AI 虚拟数字人上推出多语种环境下的实时展示。接下来,科大讯飞将在技术方向做投资孵化,希望通过生态建设连接顶尖 AI 能力和优质合作伙伴,推动整个行业向前更进一步。
关联阅读:“讯飞乐享 A.I. 技术沙龙”成都专场:AI 虚拟人多模态交互落地难题如何破解?我们在乐享 A.I. 技术沙龙成都站找到了答案
评论