写点什么

百度技术沙龙第 36 期回顾:语音技术现状与趋势(含资料下载)

  • 2013-03-18
  • 本文字数:2303 字

    阅读完需:约 8 分钟

在 3 月 16 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 36 期百度技术沙龙活动上,百度多媒体部门的语音技术研发工作的负责人贾磊和 IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇分享了在语音技术的的经验与实践,话题涉及“语音技术的发展与应用”,以及“利用数据做聪明的决定”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:语音技术的发展与应用(下载讲稿

百度多媒体部门的语音技术研发工作的负责人贾磊首先结合百度通用语音识别服务介绍了在互联网下的语音识别的技术特色:

  1. 网络化的识别构架
  2. 海量语言模型训练玉莲和语音层信息的快速更新
  3. 海量的来自各种平台的语音特征
  4. 庞大的计算资源和服务平台

目前百度使用一套网络架构支持包括掌上百度、百度搜索、Ting! 等多样化的产品,所有的产品通过统一的接入接口经过解码器由垂直领域模型进行解析,语音通过使用类语言模型、Grammer 模型、Ngram 模型和深度神经网络模型,进行一遍解码,进行文字结果识别、指令内容解析。

然后他对声学建模和语音识别中的深度神经网络进行了介绍,主要针对传统 SDG 训练等的不足指出深度神经网络在语音识别方面的优势:

  1. 在 1000 小时数据的训练上,相对于 mpe 和 fmpe 的区分度系统而言,实现了相对误识别率的降低超过 20%。
  2. 训练后的 DNN 网络最终是稀疏的,经过优化后,可以适应 CPU 的线上服务要求。最后的概率计算打分在 12 核 12 线的条下满足时时解码要求。
  3. 有希望克服了 SGD 缓慢训练的问题,使用异步混乱梯度法或者是基于二阶优化信息的优化算法,有希望实现了 DNN 的并行海量数据训练,解决了 DNN 训练时间过长的难题。
  4. DNN 在百度已经取代了 GMM!

虽然深度神经网络作为一种强力的模式识别分类工具,广泛成功的应用于语音、图像等多媒体领域。而在文本分类领域,其应用并未获得压倒性的优势。他对这个问题践行了简单的解释。

最后他提到了 Deep Brain 的构想,希望能够通过这一个技术平台的搭建彻底解决 DNN 训练练的时间过长的技术瓶颈和网络结构和权重共同学习问题。

主题二:利用数据做聪明的决定(下载讲稿

IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇第二个为大家分享,他主要围绕如何通过数据来进行决策支持,主要涉及四个方面的内容:语音翻译、社交网络分析、深度问答和图像分析。

秦勇首先回顾了 IBM 的语音识别技术历史,IBM 自 1961 年进行语音技术研究以来,一直在相关技术领域处于领先地位,IBM 的语音识别解决方案是将内容通过 iTrans 转化成文本,通过不同的分析平台根据其用途进行解析,他对 iTrans 的架构进行了讲解。

在随后谈到社交网络分析时,他引用了这样一句话:

网络的社会化不会朝生暮死,也不回昙花一现。网络的社会化将逐渐的影响到每个人,每家公司,每个国家,深入到世界的各个角落。

IBM 目前针对公共事业、金融投资、消费品等领域进行针对性的社会化分析,通过面向领域的情感分析和观点总结能够迅速了解到相关领域的社会化网络现状。

对于深度问答,IBM 最显而易见的成果是 Watson,当然,这只是背后庞杂技术的具体展示,Watson 的实现涉及了语料分析、证据索引、假设推断以及决策制定等复杂的理论技术支持。

最后,他谈到了视觉分析,用户能够通过元数据处理以后的数据挖掘,在不同层面上对处理后的结果进行可视化的展示,在内容管理、健康管理、智慧地球等领域都能看到其运用场景。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

贾磊:今天和大家分享了百度的语音技术现状,同时也和不同行业的朋友对于语音识别的未来有了一次深入交流,对我的启发也很大;

秦勇:我们看到了 Siri 等语音技术正在改变大家的交互方式,因此谈到了语音在未来的下一个热点,如呼叫中心、多媒体内容管理等,还有就是大家也谈到了 IBM Watson 的未来;

郑鑫:我们讨论了语音技术在银行业的应用,同时还讨论了语音导航、客服来电语音分析等,也获得了很多灵感;

董鑫:我们组主要围绕语音合成技术的应用进行讨论,包括语音合成在未来将会扮演的角色、目前的一些语音合成技术现状等;

会后,一些参会者也通过新浪微博分享了他们的参会感受:

Pan 小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到 @下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。

double_ 刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法 IBM 都搞出模型了,只是 IBM 没提供给互联网用户使用:iTrans 视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。

Yang-Hsiao-Tung :百度「技术沙龙」真是不错,可以为国内 IT 行业塑造一种时尚文化。

Yourtion : iTranS 果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。

有假熊出没:IBM 的演讲更大程度上是一些 idea,一种别样的感受

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 35 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第37 期百度技术沙龙将在4 月20 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-03-18 05:523056
用户头像

发布了 89 篇内容, 共 33.7 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

祝贺!Databend Cloud 入驻 AWS 云市场

Databend

WorkPlus打造统一用户管理平台,实现企业用户管理的一体化

BeeWorks

云桌面跟PC相比能有哪些不一样的体验?

青椒云云电脑

桌面云 云桌面

使用云电脑9条注意事项

青椒云云电脑

云电脑

WorkPlus Meet白板和文档共享功能上线,私有化视频会议全新升级

BeeWorks

【效率提升】手把手教你如何使用免费的 Amazon Code Whisperer 提升开发效率堪比 GitHub Copilot 平替

亚马逊云科技 (Amazon Web Services)

LeetCode题解:7. 整数反转,迭代,JavaScript,详细注释

Lee Chen

JavaScript LeetCode

云桌面系统的运用优势有哪些?

青椒云云电脑

云桌面

私有化部署即时通讯平台,完美替代飞书和钉钉的SaaS系统

BeeWorks

云桌面GPU技术方案

青椒云云电脑

图形工作站

虚拟云桌面和共享云桌面有啥区别

青椒云云电脑

云桌面

不同构架云桌面的部署风险

青椒云云电脑

云桌面

高性能存储 SIG 月度动态:erofs 新增支持多个重要特性,持续构建容器场景竞争力

OpenAnolis小助手

开源 容器 高性能存储 龙蜥社区 sig

不同构架云桌面的部署风险

青椒云云电脑

云桌面 青椒云云桌面

五点告诉我们云教室比传统机房好

青椒云云电脑

云教室

为什么要使用虚拟云桌面?

青椒云云电脑

云桌面 青椒云云桌面

无障碍测试解读

QE_LAB

无障碍 测试技术干货 测试技术

如何实现虚拟云桌面?

青椒云云电脑

桌面云 云桌面

业务喜报丨九科信息成功签约四川中烟工业有限责任公司成都卷烟厂RPA项目

九科Ninetech

RPA RPAxAI

云桌面在教学中的应用

青椒云云电脑

云桌面

什么是云电脑?

青椒云云电脑

云电脑

海外运营视频直播App,服务器放在哪?

山东布谷科技胡月

语音聊天APP源码 国际版语音直播APP 交友软件开发 海外直播App开发 直播交友源码

八种十倍提升API性能的方式

树上有只程序猿

数据库 服务器 API 接口

云桌面应用下的数据防护新思路

青椒云云电脑

云桌面

作业

大肚皮狒狒

腾讯云TDSQL- C Serverless 2.0版发布,多项核心技术首次公开解析

极客天地

WorkPlus——高效私有化办公平台,实现即时协作与信息安全的完美结合

BeeWorks

虚拟云桌面在实验教学中的应用与实践

青椒云云电脑

桌面云 云桌面

影响云桌面性能的三个重要因素是什么?

青椒云云电脑

云桌面

百度技术沙龙第36期回顾:语音技术现状与趋势(含资料下载)_IBM_水羽哲_InfoQ精选文章