「如何实现流动式软件发布」线上课堂开课啦,快来报名参与课堂抽奖吧~ 了解详情
写点什么

搜狗 AI 交互技术部总经理陈伟:未来 AI 语音交互产品将会走向多模态

2020 年 6 月 04 日

搜狗 AI 交互技术部总经理陈伟:未来AI语音交互产品将会走向多模态

受限于人工同传或速记人员费用高、记忆力及翻译/速记速度有限等因素,搜狗 AI 录音笔逐渐出现在越来越多会议场景中,AI 录音笔可以将演讲者的语音实时转成文本,并且进行同步翻译,很大程度上取代了人工同传和速记人员,帮助人们实现了不同语言间的低成本交流。那么,这背后又有哪些智能语音技术作为支撑?在 AICon 大会召开前夕,InfoQ 有幸采访了搜狗 AI 交互技术部总经理陈伟,听他分享搜狗 AI 交互技术的发展历程及应用实践。


背景

随着深度学习技术的兴起,人们已经看到了 AI 在感知识别层面如语音、视觉等领域取得的惊人成果,AI 智能语音技术也正在快速走向实用。搜狗近年来一直在 AI 领域持续布局,语音识别在搜狗输入法的大规模应用也呈现出渐行渐好的趋势。


借此契机,陈伟于 2012 年 8 月加入搜狗,负责带领搜狗 AI 交互技术团队,围绕搜狗“自然交互+知识计算”的 AI 战略,重点布局搜狗多模态人机交互技术的研发和产品化工作,研究的领域覆盖了多模态人机交互系统的各项技术,同时重点研究如何结合感知和认知方向的技术打造出自然的人机交互体验,期间还带领团队研发了搜狗分身、机器同传、个性化合成、变声等前沿性的 AI 创新能力,目前研发的技术重点服务于搜狗的输入法、搜索、AI 硬件等核心产品,同时也在以搜狗 AI 开放平台的方式对外输出。


搜狗 AI 交互技术的发展历程

近年来,搜狗在智能语音交互上取得了一定成绩,在车载、智能家居、可穿戴移动设备上都有规模化落地。但在智能语音交互技术的推进过程中,搜狗也是在不断的尝试和探索中蜿蜒前行。


通常,语音录入和转写的准确率要依赖于真实场景而定,受限于噪声、口音、讲话方式等因素的影响,准确率会有一定的差异。但是目前搜狗在转写上已经具备了较强的鲁棒性,针对不同场景的识别效果波动性已经有明显减小。广义的语音识别不仅限于内容的识别,还包括了语音分析等核心技术,例如搜狗的同传 3.0 技术以“多模态”和“自主学习“为核心,加入视觉(OCR)和思维能力(知识图谱),让机器同传不仅会听,还首次具备了会看、能理解会推理的能力。


在采访中,陈伟表示,搜狗在智能语音交互技术的发展,主要分为以下几个阶段:


1、语音搜索阶段

语音搜索方便了用户在搜狗搜索上快捷的检索,早期识别准确率不够高,但是搜索可以返回多个检索结果,很大程度可以降低识别错误带来的影响。目前搜狗识别准确率已经达到较高的水平,搜狗搜索已经可以根据用户语音搜索请求直接给出答案,用户体验感有了较大提升。


2、语音输入阶段

搜狗语音输入能帮助用户更高效、快捷地输入内容,语音输入的最高输出效率目前能达到每分钟 300~400 个字,特别是伴随着数据、算法和算力的不断提升,语音输入识别准确率也得到了大幅提升,近几年,搜狗每年的识别字错误率都能保持 30%以上的下降,语音输入的日 PV 已经达到 10 亿+。但是,快速发展的背后也让搜狗发现通用的语音输入无法解决用户个性词的识别,比如通讯录、工作领域的词汇等,所以去年搜狗发布了个性化语音识别能力,能够基于用户在搜狗输入法的用户词库,实时优化语音识别效果,针对个性化词的识别错误率下降了 40%。


3、语音翻译阶段

语音翻译能够方便用户进行实时跨语言的交流,结合搜狗在语音识别、机器翻译、语音合成领域的技术积累,2016 年搜狗推出了首款商用 AI 同传系统—搜狗同传,能够实时查看或收听同传译文,目前已经支持了大会演讲、线上直播、远程会议等多个场景,同时在输入法、录音笔等产品上也上线了同传的功能。此外,搜狗还推出了搜狗翻译机,这是业内较早地将语音翻译能力进行离线化的尝试,不联网也可以实时进行跨语言交流。产品背后,是搜狗智能语音团队在模型压缩、低算力推理、知识提纯等方面的不断探索。


4、语音交互阶段

2011 年的 Siri 和 2014 年的 Ehco 有效推动了语音助手类产品的快速成熟,也带动了国内一大批语音交互类产品的发布。在通用语音交互上的研发过程中,研究团队逐渐发现目前智能语音交互的产品,核心在于对话能力仍无法满足用户的预期,无法做到自然地对话。因此,搜狗 AI 团队的研究重点主要放在了面向于垂直刚需场景的任务型对话研究上,语音交互侧重于车载、智能家居、可穿戴移动设备等领域,提供全双工的语音交互能力,并在 2016 年发布了自有的语音交互 VUI-知音 OS。


5、多模态交互阶段

搜狗的人机交互主张是自然交互,如何做到自然交互,搜狗认为这一问题的答案,一定是多模态交互。不局限于语音,而是语言、视觉等多种模态信息相结合,共同提升交互体验。因此,搜狗在多模态感知、多模态人机交互、多模态表达等方向都在持续研发,特别是其发布的搜狗分身,实现了以数字人的形象和人进行对话和交互,形成了搜狗在交互领域最具差异化和代表性的交互产品。


结语

据陈伟介绍,未来 AI 语音交互产品将会走向多模态,搜狗同传也不例外。就搜狗同传产品而言,在经过多重“感官”的调用后,搜狗同传不仅可以做到翻译更加快速和准确,而且会更加自然、专业、智能。数据显示,在“听”“看”“思考”三位一体的作用下,搜狗多模态同传系统针对 PPT 内容的识别准确率提升 21.7%,翻译正确率提升 40.3%。


嘉宾介绍:


陈伟,搜狗 AI 交互技术部总经理,主要负责搜狗多模态人机交互技术的研发和产品化工作,研究方向涵盖语音、图像、自然语言等多模态领域,带领团队实现了行业中最前沿的人机交互技术,并重点推动了搜狗人机交互核心能力在输入法、AI 录音笔、AI 翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的 AI 创新产品,不断带领团队探索人机交互产品和技术的未来。


2020 年 6 月 04 日 14:594256
用户头像

发布了 279 篇内容, 共 81.1 次阅读, 收获喜欢 380 次。

关注

评论 1 条评论

发布
用户头像
666
2020 年 06 月 04 日 20:26
回复
没有更多了
发现更多内容

基于服务设计的线上展览

京东科技开发者

云安全

架构师训练营第 1 期第 7 周作业

业哥

阿里P8架构师呕心沥血整理的【Docker实战】文档带你玩转Docker。

Java架构之路

Java 程序员 架构 面试 编程语言

丑陋的程序员

陆陆通通

程序员 职场 认知

只需三步,带你从0到1玩转React,附源码我一定给你讲明白

小Q

Java 学习 编程 架构 面试

国家超算深圳中心计划2年内提升计算能力至少1000倍;图神经网络的生成式预训练论文解读

京东科技开发者

云计算

详解软件行业低代码开发平台以及敏捷开发方案

Marilyn

敏捷开发

华为20级工程师吐血整理出600页Spring微服务架构设计,绝了!

996小迁

Java spring 编程 架构 spring微服务

如何快速构建Spring Boot基础项目?

田维常

spring Boot Starter

JAVA魅力之神奇的数组带给你不一样的乐趣

小Q

Java 学习 架构 面试 数组

2020双十一终极清单!阿里云CDN&视频云最全优惠攻略

阿里云Edge Plus

CDN

为什么11·11物流一年比一年快?奥秘就在这里!

华为云开发者社区

物联网 物流 仓储

MySQL-技术专题-创建临时表

李浩宇/Alex

sharding-jdbc 分库分表的 4种分片策略,还蛮简单的

程序员内点事

Java 分库分表

WebSocket连接错误Error during WebSocket handshake Unexpected response code 404

李浩宇/Alex

区块链数字货币商城系统开发技术

薇電13242772558

区块链 数字货币

华为云FusionInsight湖仓一体解决方案的前世今生

华为云开发者社区

数据库 华为 仓库

产品经理团队的管理秘法

马踏飞机747

管理 产品经理 团队

用时半个月,终于把2020年各大公司的Java面试题精选整理成文档了

Java架构之路

Java 架构 面试 编程语言

【原创】SpringBoot 这几种配置文件方式,你都用过吗?

田维常

spring Boot Starter

从零实现一个动态表单设计(编辑)器

徐小夕

Java 编辑器 H5 Node React

Flink State 误用之痛,你中招了吗?

Apache Flink

flink

Java-技术专题-时间工具类的使用方案

李浩宇/Alex

浅析一个较完整的SpringBoot项目

田维常

spring Boot Starter

Go 与异步 IO - io_uring 的思考

IceberGu

golang Linux 异步IO io_uring

阿里二面惨败,痛定思痛狂刷1000+面试题,成功五面上岸滴滴(面经+面试题分享)

Java架构追梦

Java 架构 腾讯 面试 蚂蚁金服

MySQL-技术专题-STRAIGHT_JOIN

李浩宇/Alex

阿里P8Java大神给迷茫的程序员一些中肯建议:“请不要再虚度光阴了!”

Java架构之路

Java 阿里巴巴 程序员 架构 编程语言

物联网时代存储告急 边缘存储如何缓解存储压力?

京东科技开发者

云计算 云服务 云存储

华为云“创原会”:40+技术精英论道云原生2.0

华为云开发者社区

k8s 华为云

【原创】Spring Boot集成Redis的玩法

田维常

spring Boot Starter

搜狗 AI 交互技术部总经理陈伟:未来AI语音交互产品将会走向多模态-InfoQ