HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

谷歌开源框架 FUSS,让声音分离不再成为难题

  • 2020-04-22
  • 本文字数:1559 字

    阅读完需:约 5 分钟

谷歌开源框架FUSS,让声音分离不再成为难题

近日,谷歌研究团队在其开源博客上发布了一个免费的通用声音分离数据集,即 FUSS。这个数据集将被当作 IEEE 声音事件检测和分离任务网络挑战竞赛的基准,并有助于将来自其他机器学习领域的新技术快速迭代和应用到对声音分离的科研上。


近日,我们很高兴地宣布发布 FUSS——即免费的通用声音分离数据集(Free Universal Sound Separation)。


通常录制的音频可能会包含多种不同的声源。通用声音分离能力是指,无论音频中包含何种类型的声音,都可以将这样的混合音频按其组成分解为不同声音。在此方法问世之前,声音分离的工作更多关注于把混合音频分解成少量指定类型的声音,如“语音”与“非语音”,或分解成同一类型声音的不同实例,如 1 号发言者与 2 号发言者。而且,通常在这样的声音分解工作中,混合音频中的声音数量也是被假定为先验的,即事先知晓的。然而,这次发布的 FUSS 数据集将关注点转移到解决更通用的问题上,即将数量可变的任意声音从混合音频中逐一分离。


在这个领域,训练模型一个需要克服的主要障碍是,即使有高质量的混合音频录音,用基准真相(ground truth)来对这些录音进行数据标注也并不是一件容易的事情。高质量的仿真是克服这一限制的一种解决方法。为了获得良好的仿真效果,需要一组多样化的各式各样的声音、一个逼真的房间模拟器,以及将这些元素混合在一起的代码,以求实现逼真的、多源的、多种类型的音频,并将之用基准真相进行标注。使用新发布的 FUSS 数据集,我们就能实现拥有这三个特征的音频仿真。


FUSS 依靠的是来自 freesound.org 网站的具有知识共享(Creatuve Cinnibs)许可的音频剪辑。我们团队根据许可类型将这些声音过滤搜索出来,然后使用 FSD50k 的预发布版本,进一步过滤掉那些混合在一起时无法被分离的声音。经过这些过滤之后,有大约 23 个小时的音频,包括 12377 种声音,可以用于混合声音的机器学习。在我们的研究中,其中有 7237 种声音用于训练;2883 种用于验证;2257 种用于评估。使用这些音频剪辑,我们创建了 2 万个训练混合音频、1000 个验证混合音频和 1000 个评估混合音频。


在开源机器学习平台 TensorFlow 上,我们开发出了自己的房间模拟器。在给定声源位置和麦克风位置的条件下,该房间模拟器能够生成一个箱形房间的脉冲响应,且该箱型房间带有频率相关的声音反射特性。作为 FUSS 数据集发布的一部分,我们为每个音频样本都提供了预先计算出来的房间脉冲响应以及混合代码,因此音频方面的研究社区可以直接用这个数据集来模拟新的音频,而无需去运行房间模拟器所要求的海量计算。接下来,我们还将继续的工作可能会包括发布房间模拟器的代码,和扩展房间模拟器功能以处理更丰富的声学特性,比如不同反射性能的材料、非规则的房间形状等等。


最后,我们还发布了一个基于掩码的分离模型,该模型基于一个改进的时域卷积网络(TDCN++)。在评估数据集上,该模型处理 2 ~ 4 个信号源的混合音频时,成功实现了 12.5 dB 的尺度不变信噪比改善(SI-SNRi),同时重建了具有 37.6 dB 绝对尺度不变信噪比的单源混合音频。


可以在这里找到源音频、混响脉冲响应、回响混合音频和由混合代码创建的声音来源,和一个基线模型检查程序的下载。还可以在我们的 github 页面上找到回响、混合音频数据以及用于发布模型训练的所有相关代码(地址:https://github.com/google-research/sound-separation)。


该数据集作为声音事件检测和分离任务的功能组件,还将用于 IEEE 发起的 DCASE 挑战。我们发布的模型将被当作本次 IEEE 网络竞赛的基准,并作为标准检查程序在未来实验中对进展进行展示。


我们希望这个数据集将帮助大家清除新研究的障碍,尤其是有助于未来其他机器学习领域新技术的快速迭代和应对声音分离科研上的挑战上。


原文链接:


https://opensource.googleblog.com/2020/04/free-universal-sound-separation.html


2020-04-22 17:173096

评论 1 条评论

发布
用户头像
AI 心语心愿
2020-04-23 12:23
回复
没有更多了
发现更多内容

京东大模型革命电商搜推技术:挑战、实践与未来趋势

京东零售技术

大模型 LLM

淘宝商品详情API返回值中的商品推荐理由与卖点

技术冰糖葫芦

API 接口 API 文档 API 测试 API 性能测试

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

Apache Flink

大数据 flink StarRocks EMR

调优:在Java 中字符串重复数据删除性能

哦豁完蛋了

Java’

1688跨境代采集运系统

tbapi

1688代采系统 1688代购系统 1688跨境代采系统

不是大模型,而是业务和技术如何统一指标定义

奇点云

大数据 AI 互联网 软件 IT

什么政府网站一定要安装SSL证书吗?应该选择哪种SSL证书?

国科云

实时语音交互的游戏队友——网易伏羲AI Agent创新应用 | DataFunSummit2024演讲实录

网易伏羲

人工智能 AI 语音 网易伏羲 游戏AI

这十年我与广告不共戴天练就的十八般武艺 #PC去广告 #手机去广告

EquatorCoco

手机 广告 PC

零一万物 Yi-Lightning:超越 GPT-4o 冲击全球榜单;阿里国际 Marco 翻译大模型发布丨 RTE 开发者日报

声网

一文看懂——SimSolid的优势

智造软件

仿真 有限元 SimSolid

RUM性能优化之图片加载

乘云数字DataBuff

前端监控 可观测性 JavaScrip RUM

淘宝商品详情数据接口:解锁电商数据分析新密码

tbapi

淘宝商品详情数据接口

观测云产品更新 | AI 智能助手、云账单智能监控、日志错误追踪等

观测云

人工智能 监控 日志

视频直播技术干货(十二):从入门到放弃,快速学习Android端直播技术

JackJiang

即时通讯;IM;网络编程

QCA9882 2x2 MIMO 5GHz Wi-Fi Solution with 80MHz Bandwidth and MMCX Connectors

wallyslilly

QCA9882

完全指南:如何高效进行业务应用开发?

NocoBase

开源 低代码 开发工具 无代码 业务应用开发

国外巨头们纷纷开始“抄”国产技术了!

Geek_2305a8

天猫商品评论API:评价内容中的用户情感倾向分析

技术冰糖葫芦

API 接口 API 文档 API 测试 API 性能测试

活动预告 | 10月26日,中国数据库联盟(ACDU)中国行·上海站邀您探讨数据库前沿技术

墨天轮

数据库 开源 国产数据库

AIGC加速商业化落地,抖音开放平台如何打造新ToB商业模式?

ToB行业头条

博睿数据首届“观测先锋 · 2024 可观测平台创新应用案例大赛”现已启动!

博睿数据

AI+云原生时代,高校该如何创新教育模式

Tp_jh

云计算 软件工程 计算机 大学 #云原生

长途自驾游太累?火山引擎数据飞轮携手车企持续优化驾车体验

字节跳动数据平台

数据飞轮

面试官:我是如何提问候选人的

老张

招聘 职场成长 面试求职

NIPs 平台:Mint Blockchain 推动 NFT 创新的新平台

NFT Research

NFT\ #Web3

鸿蒙开发案例:绘制中国象棋棋盘与棋子的技术教程

zhongcx

百度搜索2024考研大数据:北方考生“南移”成潮流

Geek_2d6073

一图为你揭秘云数据库GaussDB管理平台亮点

华为云开发者联盟

云原生 GaussDB 智能运维 数据库·

得物iOS函数调用栈及符号化调优实践|得物技术

得物技术

ios

CloudberryDB内核分享:增量物化视图的原理与实现讲解

酷克数据HashData

谷歌开源框架FUSS,让声音分离不再成为难题_行业深度_Google_InfoQ精选文章