FCon7折倒计时最后一周:日程已上线70%!查看详情>>> 了解详情
写点什么

微软升级神经网络合成技术,可快速合成有声书,提高视障人士阅读体验

  • 2019-10-11
  • 本文字数:2572 字

    阅读完需:约 8 分钟

微软升级神经网络合成技术,可快速合成有声书,提高视障人士阅读体验

视障人士日常阅读主要是通过触摸盲文书籍、听读屏软件、真人有声书籍等途径,不过,目前这几种方式仍存在一些局限性,盲文书“书荒”仍在,且制作成本高、阅读时间长,读屏软件声音较机械,不够自然,而真人录音成本较高…

现在,利用 AI 技术这些问题便可迎刃而解。微软 AI 语音团队一直在和中国最大的视力障碍人群公益组织—红丹丹合作探索 AI 电子有声产品。今年,微软智能语音产品团队对红丹丹旗下心目图书馆的 AI 语音能力进行了升级,利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台,打造出了更温暖、更自然的声音。

10 月 9 日下午,微软语音团队、微软红丹丹项目团队和红丹丹公益组织的负责人在接受 InfoQ 等少数媒体采访时,介绍了微软 AI 智能女生晓晓在红丹丹项目中的落地最新进展。

微软神经网络语音合成技术打造更温暖的声音

对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一件很奢望的事情,他们通常是通过触摸凸凹不平的盲点来阅读盲文书籍,触摸完一页书所耗费的时间是健全人的数倍。


为了让这些“黑暗中的行者”拥有更好的阅读体验,微软 AI 语音团队和红丹丹达成了合作,探索研究利用 AI 技术将文字合成电子有声读物。2014 年,微软语音团队帮助视障人士在 Azure 上搭建的云端有声读书馆——心目图书馆诞生。其主要为盲人提供有声书借阅服务,目前该图书馆已经覆盖全国 105 所视障人士学校。


在今年的微软骇客松活动中,微软智能语音 AI 产品团队对心目图书馆的 AI 语音能力进行了升级和技术更迭,打造出了更温暖、更自然的声音。据悉,新版本的 AI 语音体验将在 10.15 日”世界盲人日“这天正式上线。



2019 微软骇客松“红丹丹”项目成员


微软亚洲互联网工程院人工智能语音组产品总监丁秉公告诉 InfoQ ,该项目主要利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台。


他表示,深度神经网络的升级,是一个 TTS 代际的升级。区别于传统的 TTS,微软晓晓的声音质量、表现力更好,此外它还在声音细节处理上具有优势,譬如阅读中英混合的文本更加自然、清晰,这得益于运用深度神经网络进行混合计算,令这种合成无缝切换。


微软亚洲互联网工程院语音组产品经理、晓晓语音产品负责人刘越颖介绍,微软神经网络语音可针对不同的文章类型提供不同风格的演绎,目前能做到新闻、情感、故事、助理、客服、历史、记录、唱歌等 8 种类别的声音。


在文字转语音的合成速度方面,主要分为两种情况,一种是实时合成,在几百毫秒内便能反馈,一般运用在智能对话、助理等场景。另一种是非实时合成场景,如对整本有声书的长文本合成,所需时间约为人工录音音频时长的 1/3。


丁秉公坦言,微软语音技术和盲文书籍在合成过程中最难的技术点在于 AI 对于上下文、篇章的理解上,在这方面,目前人工智能距离还无法做到像人一样的理解能力。谈到解决方案,微软 AI 语音团队主张循序渐进,先定义声音的类型再深入实现不同情绪的自动演绎,目前,微软采用自动标记+人工辅助标记的方法来实现不同声音类型的选择。

AI 技术打破有声内容生产壁垒

除触摸盲文书籍外,很多视障人士日常还会通过读屏软件来进行电子阅读,读屏软件的声音较为机械、生硬,难以产生共鸣,长时间聆听很容易乏力,难以集中。经过本次升级后,微软晓晓的声音质量更高、更接近人类朗读的声音,在收听效果上,会让视障人士感觉更亲切、自然。


红丹丹视障文化服务中心执行主任曾鑫表示,一些盲人学校的孩子在听了微软晓晓的声音后普遍做出了正向的反馈:比现在市场上合成的声音自然多了,不像冷冰冰的机器的声音,更像是人读的,更温暖。曾鑫认为,更有“温度”的声音会帮助提高孩子们阅读的兴趣。


相比普通书籍,盲文书籍的数量只是冰山一角。因为制作成本昂贵等问题,市面上的盲文书籍数量较少,“书荒”仍然存在,类别也不够丰富,现借助微软的智能语音技术平台,可以大批量地、自动化地的将电子书转变为有声书,大大减少人力和时间成本,丰富视障人士有声阅读内容的来源。


电话采访另一端,曾鑫算了一笔“账”:


一本 100 页左右的纸质书籍,译成盲文书籍要 400-500 页,制作成本在 80-100 元左右,成本较高。而通过云端传送,一本有声书做出来之后,只需少量制作成本就可以做到无限量广域传播。


传统有声书制作需要大量真人录音,就算有志愿者献声可以省去录音费用,但录音的精力和时间成本仍无法避免。受到时间、地域、人力等各种成本限制,完成一本有声书的录制最快也要花上三个月,如果追求高质量的精品读物,时间和资金成本则更高,而微软 TTS 最快仅在几百毫秒内便可完成合成,避免了传统制作方式中存在的速度慢、成本高的问题。


“通过 TTS 合成方式,可以 7 X 24 小时无间断合成,输入文字后声音就出来了,只要有文本的内容,就可以源源不断的输出有声内容,这打破了有声内容生产的壁垒“,丁秉公表示。

技术和公益更好结合

在此之前,微软和红丹丹已是十几年的合作伙伴,2006 年,双方展开首次合作,微软一直在为其提供技术和产品支持。在微软大中华区公益事务总监王岭看来,微软一直在利用自己的技术特长和红丹丹相结合,服务视障人群。


接下来,微软还将和红丹丹一起做更多探索,刘越颖透露,团队还将尝试挖掘具有优质声音特质的视障人才,通过微软的技术助其生成有声内容,让他们也能帮助更多人,实现自我价值。


丁秉公表示,在满足视障人群的学习需求之外,未来还会考虑利用智能语音技术做更多尝试,如帮助具有自食其力能力的视障人群更好地工作。他认为微软技术服务的目标群体不只局限在残疾人,而应延伸到更大的有障碍人群。


此次和红丹丹心目图书馆项目的合作是微软公益发起的又一次行动。


王岭表示,公益和技术相结合,微软一直在路上。微软和公益组织的合作,最早可追溯到 1998 年。2011 年 6 月,微软在全球公布了“Tech for good”理念,并在此后积极践行。除了和红丹丹的合作,20 多年来,微软还利用在线客服、机器翻译、人脸识别、云技术、大数据等技术和平台帮助其他社会残障人士解决所需和处理社会棘手问题,代表性的公益项目包括“ AI for Earth”(地球人工智能)计划、微软人脸识别应用 API 寻找儿童、为中国发展研究基金会“智能村小”项目研发智能远程实时教育系统等。


2019-10-11 17:142374
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 469.5 次阅读, 收获喜欢 1953 次。

关注

评论

发布
暂无评论
发现更多内容

毕业回馈!Apache Doris 社区所有贡献者来领礼品啦!

SelectDB

数据库 数据湖 开源项目 apache doris 社区活动

浅谈融云即时通讯服务「日志优化」

融云 RongCloud

喜讯!云效度量能力获信通院先进级评估

阿里云云效

云计算 阿里云 DevOps 研发效能 研发

我的远程办公经验 | 社区征文

坚果

初夏征文

力扣每日一练之数组中篇Day2

京与旧铺

6月月更

异步容灾,AntDB的业务不间断数据恢复方案

亚信AntDB数据库

数据库 高可用 容灾 数据恢复

AIOps落地五大原则(二):价值路线

BizSeer必示科技

携手腾竞体育后,英特尔IMC如何加速电竞生态正循环?

科技之家

2021年4季度全国网络零售发展指数同比增长0.6%

易观分析

网络零售

覆盖接入2w+交通监测设备,EMQ为深圳市打造交通全要素数字化新引擎

EMQ映云科技

物联网 IoT 智慧交通 实践案例 6月月更

如何把企业内部碎片信息系统化?

小炮

从华为WeAutomate数字机器人论坛,看政企领域的“政务新智理”

王吉伟频道

RPA 数字化转型 华为WeAutomate 政务新智理 数字政府

「微服务的细节」—— 周期性注册 or 一次性注册

袁世超

微服务

数据库每日一题---第18天:每天的领导和合伙人

知心宝贝

数据库 大数据 前端 后端 6月月更

重新认识WorkPlus,不止IM即时通讯,是企业移动应用管理专家

WorkPlus

LP流动性质押挖矿分红dapp系统开发合约定制

开发微hkkf5566

云上弹性高性能计算,支持生命科学产业高速发展、降本增效

阿里云弹性计算

HPC 高性能计算 生命科学 药物设计

稳住了,别抖!—— 看GetX 的Worker如何防抖

岛上码农

flutter ios 前端 安卓开发 6月月更

东方甄选双语直播火爆出圈,新东方转型初见端倪

易观分析

农业发展

解密抖音春节红包背后的技术设计与实践

JackJiang

架构设计 短视频 社交产品

A/B测试助力游戏业务增长

字节跳动数据平台

游戏开发 游戏 ab测试 游戏运营

对讲功能在远程办公中的应用 | 社区征文

Changing Lin

初夏征文

链上智能合约Dapp系统开发部署搭建

薇電13242772558

区块链 智能合约

客户案例|观测云助力合思信息升级新一代可观测平台

观测云

2022淘宝天猫618背后的技术秘密

阿里巴巴大淘宝技术

数商云X日本高化学,共同打造跨境化学品B2B平台新范式

数商云

数字化转型 b2b

前后端如何并行开发,云端mock了解一下

Liam

前端 前端开发 Mock Mock 服务 前端工具

flutter系列之:flutter中的builder

程序那些事

flutter 程序那些事 6月月更

CRM快速开发平台:破解管理困局

力软低代码开发平台

Larix真正的去中心化借贷平台,并开启double Mining活动

鳄鱼视界

2022华为全球校园AI算法精英大赛即将升级启航,等你来战,开拓未来边界

最新动态

  • 扫码添加小助手
    领取最新资料包
微软升级神经网络合成技术,可快速合成有声书,提高视障人士阅读体验_AI_刘燕_InfoQ精选文章