写点什么

暴力堆数据没用,NLP 和语音技术突破难在哪?

  • 2019-01-11
  • 本文字数:3598 字

    阅读完需:约 12 分钟

暴力堆数据没用,NLP和语音技术突破难在哪?

如今,业内普遍认同 NLP 和语音技术的发展已经处在一个相对成熟的阶段,大到会议现场出现 AI 同传翻译已屡见不鲜,小到每个人都可以在手机端体验到智能输入法带来的便利,我们可以感觉到这两项技术已经切实融入了日常生活中。


然而,虽然 NLP 和语音技术可以在一些应用场景中满足人们的需求,但这两种技术离完美解决实际问题、满足复杂的场景需求还有很长一段距离,例如 AI 同传仍然无法灵活应对复杂的会议现场状况给出让人满意的翻译结果。


虽然搜狗公司 AI 业务发展部成立仅有一年多时间,但在 NLP 和语音技术上已经有了很多产品落地和商业化的经验。从技术和应用、商业化层面,搜狗对于 NLP 和语音是如何看待呢?AI 前线与搜狗 AI 业务负责人张博进行了交流,谈了谈他的看法。


更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)


搜狗 2017 年成立了 AI 业务发展部,负责整合搜狗 AI 技术进行工程化研发、合作生态拓展,对接行业与场景输出 AI 解决方案和技术、产品,主打政企领域的会议场景和展厅、导游讲解场景,提供智能语音转写会议解决方案、多语种 AI 同传讲解方案。


搜狗搜索和输入法是搜狗公司的两大拳头产品,在搜索中结合智能问答、知识图谱、机器翻译等 NLP 技术做到智能匹配、精准推广、英文搜索,在输入法中加入语音输入、拍照输入、翻译等功能,这些都是搜狗自主研发的 AI 技术在已有产品中的重要落地。


对于我们今天重点关注的 NLP 和语音技术,AI 前线通过张博了解到,搜狗的人工智能以语言为核心,在语音识别、语音合成、声纹和唇语,以及知识图谱、自然交互、问答、对话等方向都取得了突破且有很多落地,其中最大的一个落地产品就是搜狗输入法,它集成了语音输入功能、翻译功能、字音翻译、拍照输入、拍照翻译等功能,每天的语音输入次数超过 4 亿次。

NLP 和语音技术应用之难题

离线翻译

虽然 NLP 和语音技术近年来已经进入偏成熟的阶段,但仍有很多问题,需要逐步解决以推动行业发展。


例如很多公司应用 NLP 和语音技术的落地产品——翻译机,虽然目前市面上的翻译机能解决一定的场景需求,但仍面临很多问题。比如,离线翻译的需求其实很大,但各家翻译机的离线翻译质量并不高。这是为什么呢?张博表示,离线翻译其实确实不好做,它需要在没有网络的情况下进行翻译,不能调用云端的 API 接口接口,只能在终端实现所有计算。现在翻译机使用的是与手机类似的 SOC 芯片,在性能远低于服务器端 GPU 上的移动端 SOC 芯片上实现一套完整的语音识别、语音合成、机器翻译和 OCR 流程,计算量是非常大的。这种情况下,翻译效果一定是比在线的差,因为它的数据和算法会做裁减以匹配 SOC 的算力。


那么,应该如何在离线的情况下实现更好的结果?张博表示,评测显示,搜狗翻译机离线情况下目前是业界里表现最好的,其实是因为搜狗采用了一些方法。


其中一个手段是专注于场景,比如搜狗的一代翻译器专注于旅行这个场景,聚焦于旅行相关的对话,菜单、路牌等场景,把数据裁减成相关数据集重点处理,这样就可以得到比较好的结果。其次就是拼算法能力,相当于在更小的空间复杂度和时间复杂度内去做出更好的效果,这就是要拼算法工程师的能力了。


张博说到,人工智能目前的产业发展处于相对初级阶段,还是“填坑”大于产出的阶段,投入相对多一些,产出会慢一些。有人会说,有了专用的 AI 芯片之后,离线翻译技术水平会提高。张博不完全认同这一说法:“目前国内外主流的 AI 芯片公司现在做的都是跟图像相关的 AI 芯片,而不是语音和 NLP 相关的。语音这块其实是有一些坑的,比如说语音用到的主要的算法做成 AI 芯片难度比图像里的主要算法要大很多,语音的问题怎么解决?目前只能语音厂商自己解决,这就是体现出各个语音厂商自己算法能力的时候。”

语音和 NLP 技术评测没有权威标准

现在,很多企业都会强调自家的语音识别准确率达到 98%,但是关于准确率的实现条件和具体使用环境业内并没有统一认可的标准。


张博表示,现在人工智能产业处于发展初期,大部分人工智能技术都没有以一个权威的评测规范和手段。像语音和 NLP 这种语音为核心的领域,目前国内没有什么权威的检测和评测的机构。但这个问题正在得到一步一步解决。搜狗现在是中国人工智能产业发展联盟的副理事单位之一,张博作为技术和产业组的副组长,了解到联盟正在推动 AI 技术和产品的评测标准建立,这包括两个方面,一个是对于技术本身的评测,第二是对于 AI 产品的评测,比如翻译机、智能音箱、智能车载导航等产品。更广泛的领域都需要建立一套统一的评测机制,才能解决问题,这需要行业协会来主导,政府来推进,共同建设标准,推动整个行业的发展。

NLP 和语音技术的发展瓶颈

最近,有很多人在讨论,近年来 NLP 和语音在技术和应用层面实质上少有突破,到底在技术和应用上,NLP 和语音遇到了什么样的瓶颈,才会让人们感觉到发展速度太过缓慢?


张博认为,回顾最近一波人工智能热潮的缘起,是因为深度神经网络的提出,并且 GPU 出现使得算法、算力大幅提升“比如语音识别就是一个典型。在没有 GPU 加深度学习的时候,大家的准确率怎么都上不去,现在多家公司都已经宣称能够达到 98% 的准确率,这其实就是一个技术的发展带来了产品效果上的革新。”


张博认为,任何一项人工智能技术,乃至任何一项技术的发展都有一个红线,其特点是超过了这个红线,就到了一个产业的拐点迎来产业的飞速发展。所谓的红线,比如说语音识别的准确率,人脸在安防行业的准确率,很多企业都开始逐渐接近这个红线,所以这些技术在行业中的应用迎来比较大的发展。


语音识别同理,自从突破了识别准确率的红线之后,98% 的准确率在应用上已经可以解决很多问题。但是,很多时候我们讲的语音识别准确率达到 98%,其实是在一个理想的条件下达成的。比如手机输入法,对着手机说话拾音效果很好,但在远场识别、噪音环境识别,或是专业领域,准确率就会大打折扣。也就是说 复杂场景是制约语音识别发展的重要因素之一。


对于 NLP 技术,张博个人认为目前并没有达到理想的突破,即实现非常顺畅的自然语言理解。“目前所有的 NLP 相关的技术更多还是靠大量堆数据和在特定垂直领域制定一些规则来解决问题。现在,人们对 NLP 突破的期待包括,实现整篇文章的阅读理解、自然的对话、多轮的对话,而不是靠堆规则,这方面目前还有很长的路要走。”张博告诉 AI 前线。搜狗也会在这种“真 NLP”的技术方面努力,比如完整篇章的翻译和理解。虽然现在的技术还解决不了这些问题,他相信随着时间的推移,这些问题都会得到解决。


对于何时 AI 翻译和速记会完全代替人工的问题,张博果断表示完全替代永远是做不到的,这需要很长的时间;但可以一步一步,从辅助人工到逐渐去替代人工。

寻求场景突破,商业化前景广阔

面临诸多问题和挑战,NLP 和语音领域未来会在那里出现突破口呢?张博给出了他的看法:“我这样看待这个问题,技术是一方面,应用场景可能比技术还要重要。因为如果说是有好的应用场景,就会吸引广大的研发科研力量往这个应用场景里投入。比如说开会的场景,甚至在一些自然交互的场景、对话的场景甚至是智能客服这些场景,如果有一些成功的进展可能会引领一些技术的突破。”


尽管还有很多问题亟待解决,NLP 和语音技术的应用和商业化前景仍然非常广阔,包括政企端、智能硬件端、智能语音交互、知识的挖掘和计算,都是比较好的落地场景。

产学研结合转换成商业效益

张博认为,突破这些障碍的关键,在于企业和高校于学术界的联合研发,比如搜狗与清华大学联合成立了清华大学天工智能计算研究院,就依靠各自双方的优势共同研究课题,在国际大赛中获奖,并将成果应用于产品中。


例如搜狗与研究院联合研发的产生的机器翻译引擎,不仅在国际顶会上获得优秀论文,还在国际大赛中获奖,也应用到了搜狗同传、搜狗翻译机以及搜狗英文搜索、搜狗翻译 APP 等多条产品线上。而联合研发的同传场景情感迁移和风格迁移项目,以及对话和问答技术,也应用到了同传和搜索等产品中。

高校 AI 人才供需两旺

最后,张博谈论了关于中国 AI 人才的问题。有人提出质疑,现在高校中的教授被高薪聘为首席科学家等,获得很高的报酬,问题是,高校中做学术研究的人才是否实用?


对此,张博对此持肯定态度:“之前 IT 界和互联网界,有工作经验的工程师会比刚毕业的学生更好用。但是 在人工智能方向,这个情况就不太一样了,人工智能 强调算法,目前所有高校在人工智能上的投入都非常大,所以说其实包括刚毕业出来的学生,如果他的算法实力够牛,他已经可以在 AI 界拿非常高的薪水,这已经在行业里有非常多的案例了。”


AI 算法人才的高薪会促进高校的 AI 人才供给。实际情况是,很多高校的计算机相关专业都开始大规模投入 AI 研究。


张博预测,未来几年整个中国的 AI 人在的供给量会大幅增加,而中国 AI 人才需求量也将大幅增加,所以会导致 AI 人才的薪水可能不会有太大的波动,因为 AI 人才的供给量和需求量都是同步增加的。

采访嘉宾

张博,搜狗 AI 业务负责人。


2019-01-11 15:177387
用户头像

发布了 98 篇内容, 共 64.0 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

华为云桌面Workspace云上办公,方便得很!

路过的憨憨

图神经网络之预训练大模型结合:ERNIESage在链接预测任务应用

汀丶人工智能

图神经网络 图学习 11月月更

集合:元素之间不允许重复

乔乔

11月月更

深入浅出学习透析Nginx服务器的基本原理和配置指南「Keepalive性能分析实战篇」

洛神灬殇

nginx keep-alive 11月日更

阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了

小二,上酒上酒

Java 编程 分布式 算法 编程开发

一个三年Java程序员的面试总结!绝对会对你有所帮助

钟奕礼

Java java面试 java编程 程序员 java

今年Java技术岗面试太难了,收藏93套BATJ等公司面试题集,已看哭

钟奕礼

java面试 java编程 Java‘’ 程序员‘

华为云会议,云上办公更轻松高效

路过的憨憨

信息论与编码:线性分组码与性能参数

timerring

数据通信 11月月更 线性分组码

腾讯云大神亲码“redis深度笔记”,不讲一句废话,全是精华

钟奕礼

Java java程序员 java面试 java编程

极致性能!阿里巴巴Java性能优化实录Github首次开源

Java永远的神

JVM 设计模式 多线程 java程序员 Java性能优化

进军东南亚市场,腾讯云数据库TDSQL助力印尼BNC银行数字化转型

腾讯云数据库

金融行业 tdsql 腾讯云数据库 BNC

万字长文!对比分析了多款存储方案,KeeWiDB最终选择自己来

腾讯云数据库

nosql 存储 NoSQL 数据库 腾讯云数据库 KeeWiDB

小令观点 | 让全球身份更可信:电子护照的前世今生

令牌云数字身份

数字身份 护照 电子护照 全球护照

极客时间运维进阶训练营第五周作业

好吃不贵

面向大规模队列,百万并发的多优先级消费系统设计

阿里云视频云

阿里云 队列 消费系统

先到先得!阿里淘系内传322页Java并发编程核心讲义学习笔记

钟奕礼

Java java程序员 java面试 java编程

元组:轻量级列表

乔乔

11月月更

一文熟悉 Go 的分支结构(if - else-if - else、switch)

陈明勇

Go golang Switch if 11月月更

列表常用方法(一)

乔乔

11月月更

涨薪50%,从小厂逆袭,坐上美团L8技术专家(面经+心得)

钟奕礼

Java Java 面试 java编程 程序员 java

最近面试Java开发的感受:就以平时项目经验面试,通过估计很难

钟奕礼

Java java面试 java编程 程序员 java

终于拿到了阿里P8架构师分享的JCF和JUC源码分析与实现笔记java岗

小二,上酒上酒

Java 源码 JUC JCF

架构实战营-模块5课后作业

Mr.M

824页23种设计模式全解析,搞定设计模式各种难题

小小怪下士

Java 程序员 设计模式

从零开始读源码,阿里最新JDK源码剖析笔记在架构师社区火了

程序员小毕

Java 程序员 后端 jdk源码 架构师

CDH5部署三部曲之一:准备工作

程序员欣宸

大数据 CDH 11月月更

列表常用方法(二)

乔乔

11月月更

字典:反映对应关系的映射类型

乔乔

11月月更

GitHub标星1.6W+的570页JVM垃圾回收文档,助我boss直聘狂拿offer

小二,上酒上酒

Java JVM 垃圾回收 性能调优

阿里P8架构师强推java程序员人手一套116页JVM吊打面试官专属秘籍

小二,上酒上酒

Java 编程 JVM 开发 计算机

暴力堆数据没用,NLP和语音技术突破难在哪?_AI&大模型_Debra_InfoQ精选文章