InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

利用深度学习从大脑活动合成语言,应对人类语音挑战

作者: Anthony Alford

  • 2019-04-08
  • 本文字数:1029 字

    阅读完需:约 3 分钟

利用深度学习从大脑活动合成语言,应对人类语音挑战

研究团队利用深度学习神经网络从人脑记录的电信号中合成语音,帮助人们应对语音挑战。


在三个独立的实验中,研究团队使用皮层脑电图(ECoG)来测量受试者在听别人说话或自己说话时大脑中的电脉冲。然后,这些数据被用来训练神经网络产生语音输出。这项工作的动机是创建一个脑-机接口或“语音假肢”,直接将用户大脑中的信号转换成合成语音,帮助那些不能说话的人。


第一个实验是由哥伦比亚大学的一个团队进行的,使用了癫痫患者接受治疗的数据。研究人员将电极植入患者的听觉皮层,并在患者收听简短的口语录音时从电极上收集 ECoG 数据。研究人员使用KerasTensorflow训练了一个深度神经网络(DNN),使用 ECoG 数据作为输入,并以录音的声码器/声谱图表示为目标。为了评估结果音频,研究人员让听众听复原数字,并报告他们听到了什么;最佳模型的精度达到 75%。


由德国不来梅大学的 Tanja Schultz 教授领导的另一个研究小组收集了接受颅骨切除术的病人的数据。研究人员向这些患者展示了单个单词,他们大声朗读这些单词,同时记录他们的 ECoG 信号。语音也被记录下来并转换成声谱图。然后,他们训练了一个密集卷积网络(DenseNet),将大脑信号转换成声谱图。接下来,他们用WaveNet声码器将声谱图转换成可听语音。为了评估合成语音,研究人员使用了一种名为短时目标可懂度(STOI)的算法来测量语音质量。分数介于 30%到 50%之间。


最后,由加利福尼亚大学的 Edward Chang 领导的第三个研究小组,也使用了患者大声朗读时记录的ECoG信号数据。该团队使用了两个长短期记忆(LSTM)网络的方法。第一个学习了从大脑信号到“中间关节运动表征”的映射,该映射可以建模说话者声道的物理行为。第二个 LSTM 学习了从运动表征输出到实际音频的映射。这个模型使研究人员能够从记录的大脑活动中合成语言,而病人只是做出说话的动作,并没有真正发出声音。通过Amazon Mechanical Turk,研究人员让听众在听到一个合成的句子后,从多项选择的答案中选出一个来标识他们听到的句子。正确识别每句话的听众的中位数百分比是 83%。


要使这项技术成为一种实用的假肢,还有很长的路要走。首先,所有的方法都使用了收集到的电极数据,这些电极被植入那些头骨被打开进行脑部手术的病人的大脑中。虽然 Chang 的团队确实证明了无声哑剧所产生的信号可以合成语音,但是,许多可能需要这种假肢的使用者可能无法很好地控制他们的声道,甚至无法做到这一点。


查看英文原文:Deep Learning for Speech Synthesis of Audio from Brain Activity


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-04-08 08:002403
用户头像

发布了 630 篇内容, 共 321.3 次阅读, 收获喜欢 1432 次。

关注

评论

发布
暂无评论
发现更多内容

软件测试 | 测试开发 | 测试工程师如何突破职场瓶颈?

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 接口测试项目实战与经典面试题解析,挑战 BAT 大厂必会!

测吧(北京)科技有限公司

测试

2022年区块链金融场景化应用专题分析

易观分析

区块链 金融

Java知识点锦集1

喜羊羊

9月月更

数据结构与算法 之线性表

喜羊羊

9月月更

【C语言深度剖析】深入理解const的用法(趣味小故事解析)

Albert Edison

指针 C语言 const 9月月更

【精通内核】Linux内核写锁实现原理与源码解析

小明Java问道之路

读写锁 锁降级 Linux内核 9月月更 锁唤醒

[Go WebSocket] 多房间的聊天室(六)为什么要加锁?不加锁行不行啊?

HullQin

Go golang 后端 websocket 9月月更

面试突击83:什么情况会导致@Transactional事务失效?

王磊

Java 面试题

2022-09-14:以下go语言代码输出什么?A:0 0;B:0 1;C:1 1;D:1 0。 package main func main() { println(f(1)) } func

福大大架构师每日一题

golang 福大大 选择题

关于运维监控系统实践中的一些tips

穿过生命散发芬芳

监控系统 9月月更

基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v5.0版已发布

JackJiang

Netty 即时通讯 im开发 开源im

前端高频面试题汇总(一)

loveX001

JavaScript 前端

腾讯前端一面常考面试题合集

loveX001

JavaScript 前端

跟着卷卷龙一起学Camera--AF

卷卷龙

ISP 9月月更

从0到1开发微信小程序(2)——开发第一个小程序

微信小程序专栏

关于数据仓库的特点及组成的概述

阿泽🧸

数据仓库 9月月更

图系列算法在转转推荐算法召回及粗排的实践

转转技术团队

深度学习 推荐系统 图算法 graph embedding

Elasticsearch聚合学习之三:范围限定

程序员欣宸

elasticsearch 9月月更

MFC框架下,加密图片加载并显示功能

中国好公民st

c++ 加密 9月月更

软件测试 | 测试开发 | 测试开发基础|一文搞定计算机网络(一)

测吧(北京)科技有限公司

测试

软件测试 | 测试开发 | 文未有福利 | BAT 名企大厂做接口自动化如何高效使用 Requests ?

测吧(北京)科技有限公司

测试

从0到一开发微信小程序(1)——申请账号并安装开发环境

微信小程序专栏

从0到1开发微信小程序(3)—小程序框架配置

微信小程序专栏

渡过“寒冬”,看云原生数据库如何助力企业降本增效与持续创新

亚马逊云科技 (Amazon Web Services)

数据库 云原生

C/C++生态工具链——gcc/g++编译器使用指南

Revolution_z

c++ C语言 GCC g++ gcc 编译器

Java进阶(二十二)使用FileOutputStream写入文件

No Silver Bullet

9月月更 FileOutputStream 写文件

C++学习---cstdbool和cstddef源码学习分析

桑榆

c++ 源码阅读 9月月更

Java知识点锦集2

喜羊羊

9月月更

为什么Vue中的v-if和v-for不建议一起用

达摩

Vue

敏捷Scrum实施落地中的3大典型问题及解法

PingCode

  • 扫码添加小助手
    领取最新资料包
利用深度学习从大脑活动合成语言,应对人类语音挑战_AI_InfoQ精选文章