QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212573
用户头像
蔡芳芳 InfoQ主编

发布了 804 篇内容, 共 574.5 次阅读, 收获喜欢 2799 次。

关注

评论

发布
暂无评论
发现更多内容

AI+算力,赋予天翼云数字人“最强大脑”!

天翼云开发者社区

北京 Meetup 邀你来|云上 StarRocks 极速湖仓

阿里云大数据AI技术

大数据

【致地图开发者】地图开放平台假期服务公告

百度开发者中心

百度地图

【转载】“一中心四辅助” | 亚信安慧产品与解决方案全栈图谱发布

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

高性能网络SIG月度动态:virtio-net 支持动态中断调节,SMC v2 协议增加新扩展

OpenAnolis小助手

ebpf 高性能网络 龙蜥社区 sig 月度动态

“天翼云出海友好客户启航会”圆满收官!

天翼云开发者社区

全栈混合云综合架构方案研究和落地

天翼云开发者社区

高兼容低成本,开箱即用的首页性能优化方式被我们找到了

小红书技术REDtech

前端 Andriod

【等保小知识】等保一级需要备案吗?

行云管家

等级保护 等保备案 等保一级 一级等保

电商流量分析怎么做?试试这款数据工具DataLeap!

字节跳动数据平台

大数据 用户增长 数据产品 电商 企业号 4 月 PK 榜

Fabarta 图增强数据血缘治理解决方案

Fabarta

数据治理 图数据库 图智能 血缘治理

Android技术分享 | 一行代码实现屏幕、声音采集

anyRTC开发者

音视频 移动开发 Andriod 屏幕采集 声音采集

三分钟完成静态网站托管

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜 静态网站托管

亚信科技AntDB数据库荣膺第十二届数据技术嘉年华(DTC 2023)“最具潜力数据库”大奖

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

PaddleSeg 2.8版本正式发布啦!

飞桨PaddlePaddle

飞桨

技术文章的写作思维

老张

技术干货 技术文章

原生开发能不能动态化?如何选择动态能力建设流派

没有用户名丶

如何在 Postman 中进行 HTTPS 请求

Liam

Java 程序员 后端 Postman API 调试

golang-GMP模型

惠普聚焦资源再利用、森林保护和碳排放,理念贯穿电脑全生命周期

叶落便知秋

为什么众多大型国企都在升级企业数智化底座?

用友BIP

技术大会 用友iuap 用友技术大会 升级企业数智化底座 央国企数智化转型

【堡垒机小知识】堡垒机有主机监控功能吗?

行云管家

网络安全 堡垒机 主机监控

【Linux】之【内存】相关的命令&&解析以及内存相关的问题[free、meminfo、内存泄漏、内存溢出、Overcommit]

A-刘晨阳

Linux cpu 三周年连更

详解GaussDB(DWS)的query_band负载识别与应用

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

字节跳动的开源历程与价值思考

字节跳动开源

开源 云原生 演讲 字节

DevData Talks | 微众银行有哪些研发效能实践与思考?一起来拓展认知边界!

思码逸研发效能

研发效能 金融 微众银行

轻松比较文件和文件夹:Beyond Compare 4 Mac中文

真大的脸盆

Mac Mac 软件 对比工具 比较文件 对比软件

LED显示屏室内改为户外为何不可取?

Dylan

LED显示屏 户外LED显示屏 户内led显示屏

数字先锋| “智慧旅游”新模式,天翼云助力张家界旅游产业创新发展!

天翼云开发者社区

天翼云赋能芦山县医共体建设,为群众铺就便捷顺畅就医路

天翼云开发者社区

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章