新一代Kaldi技术细节揭秘:K2是核心部分

2020 年 11 月 15 日

新一代Kaldi技术细节揭秘:K2是核心部分

2020年11月15日,由北京希尔贝壳科技有限公司、中国计算机学会语音对话与听觉专业组、AISHELL基金会主办,小米科技、昆山杜克大学、西北工业大学音频语音与语言处理研究组、中国科学技术大学共同协办的第五届Kaldi技术交流会在北京举办。

 

受疫情影响,本次技术交流会采用全天线上直播 &下午(北京·小米科技园)线下技术交流会的形式。值得注意的是,本次线下交流活动,Kaldi 之父 Daniel Povey 博士首次亲临现场,与来自北京各大互联网公司、知名高校的开发者们深入交流下一代 Kaldi 社区未来的发展。

 

加入小米一年,Daniel Povey 设计并开发出了新一代 Kaldi。新一代 Kaldi 分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

 

其中,Lhotse(训练数据准备部分)将替代以前 Kaldi 中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse 除了 Kaldi 本身,也适用于其他应用。而且 Lhotse 纯 Python 代码,方便易用。

 

Icefall(示例脚本集合部分)将代替 Kaldi 中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

 

新一代 Kaldi 的核心部分叫“k2”。k2 可以让开发者很容易在 PyTorch/TensorFlow 中实现各种语音识别相关算法,比如 CTC、LF—MMI、RNN—T、2nd—pass 语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

 

同时,通过 k2 可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2 速度更快,通用性强(可以用来建模多种语音识别算法)。

 

现场,据 Daniel Povey 博士透露,k2 核心代码已完成。约 41000 行代码(主要是 C++),本周刚发布 0.1 版本。

 

Daniel Povey 博士目前担任小米集团语音首席科学家,由他开发和维护 Kaldi 集成了多种语音识别模型,公认是业界语音识别框架的基石。他在本次线下活动中强调:“今天有太多人依托 Kaldi 在做自己的事业,有很多人为 Kaldi 社区一直在做贡献,Kaldi 会始终坚持开源。”

 

小米集团副总裁、技术委员会主席崔宝秋出席活动并指出,拥抱开源是小米工程文化的重要组成部分,我们要共同努力实现“四赢”:让 Kaldi 项目和 Daniel 赢,小米语音赢,全球的 Kaldi 社区赢,所有跟 Kaldi 相关的创业公司赢。

 

最后,Daniel Povey 博士感谢了所有人对社区的贡献,他欢迎更多中国和全球的工程师来社区贡献代码,共同为 Kaldi 和全球语音行业的发展做贡献。


2020 年 11 月 15 日 19:141042

评论

发布
暂无评论
发现更多内容

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

关于计划的思考

zhongzhq

Rust是如何保障内存安全的

博文视点Broadview

读书笔记 rust

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

图片处理不用愁,给你十个小帮手

阿宝哥

Java 前端 工具 开源项目 图片

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

kubernetes集群安装(二进制)

小小文

Kubernetes 容器 容器技术

Python中的@staticmethod和@classmethod的区别

Young先生

Python classmethod staticmethod

字节跳动面试经验分享,已拿 Offer!

伍陆柒

Java 面试 大厂

Node.js与二进制数据流

自然醒

Java node.js 前端 二进制

猿灯塔:spring Boot Starter开发及源码刨析(二)

猿灯塔

Java 猿灯塔 源码刨析

带你解析MySQL binlog

Simon

MySQL Binlog

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

工厂方法模式

Leetao

Python 设计模式 工厂方法模式

​区块链技术的重要性

CECBC区块链专委会

SpringBoot入门:00 - 初始化项目

封不羁

Spring Boot java 14

聊聊Spring的IOC以及JVM的类加载

小隐乐乐

推荐一款Python开源库,技术人必备的造数据神器!

狂师

Python 开源 自动化 开发工具 开发数据

一文看懂 OAuth2

pingan8787

Java 前端 Web oauth2.0

重学 Java 设计模式:实战访问者模式「模拟家长与校长,对学生和老师的不同视角信息的访问场景」

小傅哥

设计模式 小傅哥 重构 代码优化 访问者模式

Linux 进程必知必会

cxuan

Linux 操作系统

一些思考

张健

Redis进阶篇三——主从复制

多选参数

redis redis高可用 redis6.0.0 Redis项目

不是完成你学习的 KPI ,而是要形成指导你行动的 OKR

非著名程序员

学习 程序员 提升认知 知识管理 程序员成长

Tomcat8.5源码构建

知春秋

tomcat tomcat构建 tomcat源码解读 tomcat剖析

Python类中的__new__和__init__的区别

Young先生

Python __init__ __new__

性能碾压 POI !利用模板语法快速生成 Excel 报表

Geek_Willie

表格控件 GCExcel 服务器端开发

JVM中栈的frames详解

程序那些事

JVM 堆栈 性能调优 JIT GC

浅析 VO、DTO、DO、PO 的概念、区别和用处!

Java小咖秀

学习 设计模式 模型 经验分享

新一代Kaldi技术细节揭秘:K2是核心部分-InfoQ