写点什么

滴滴开源自然语言理解模型训练平台 DELTA

  • 2019-08-05
  • 本文字数:1197 字

    阅读完需:约 4 分钟

滴滴开源自然语言理解模型训练平台DELTA

当地时间 7 月 28 日至 8 月 2 日,自然语言处理领域顶级会议 ACL2019 在意大利佛洛伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台 DELTA,以进一步帮助 AI 开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力 NLP 应用更好落地。


自然语言处理模型和语音模型是很多 AI 系统与用户交互的接口,此次滴滴正式开源深度学习模型训练框架 DELTA,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。


DELTA 是滴滴第 22 个开源项目,主要基于 TensorFlow 构建,能同时支持 NLP(自然语言处理)和语音任务及数值型特征的训练。


据了解,滴滴在 NLP 和语音领域已有一定积累,希望借开源 DELTA 这个机会将自身能力开放,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。同时 DELTA 专门针对工业界场景做了优化设计,填补了从算法模型到产品上线之间的空缺。


目前 DELTA 整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。


用户只需要准备好模型训练数据,并指定好配置,模型训练 pipeline 就可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,DELTA 会自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。



DELTA 研发团队告诉 InfoQ 记者,NLP 和语音模型训练需要对数据做各种特征抽取和预处理,针对这一情况,团队优化了文本和语音特征和数据处理模块,将这一部分整合进整体模型框架之中,开发者只需提供数据,所有预处理和特征抽取可以由模型框架自动实现。另外,NLP 和语音更关注对序列的建模,DELTA 针对性地提供了大量序列的建模方法。


值得注意的是,除可支持多种模型的训练,DELTA 还支持灵活配置,开发者可基于 DELTA 搭建成多达几十种的复杂的模型;此外,DELTA 在多种常用任务上提供了稳定高效的 benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用 DELTA 的部署流程工具,迅速完成模型上线,实现从论文到产品部署无缝衔接。


目前业内还没有与 DELTA 完全一样的开源项目,业界的开源项目多用于研究目的,DELTA 是专注学术界和工业界级别的开源项目。此外,相较业界已有项目,DELTA 同时支持 NLP 和语音任务,也支持数值型特征的训练,及几种特征输入的联合多模态训练,这是实际应用中常见的场景,也是 DELTA 性能更加优越的地方。


目前 AI 开发者可登陆Github查看 DELTA 的详细介绍和源代码,利用 DELTA 加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴开源平台上获取更多滴滴开源项目的相关信息。


2019-08-05 16:212554
用户头像
蔡芳芳 InfoQ主编

发布了 801 篇内容, 共 567.1 次阅读, 收获喜欢 2796 次。

关注

评论

发布
暂无评论
发现更多内容

深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet模型结构、实现、模型特点详细介绍

汀丶人工智能

人工智能 深度学习 计算机视觉 图像分类 6 月 优质更文活动

软件测试/测试开发丨学习笔记Allure2添加用例标题、用例步骤

测试人

程序员 软件测试 测试开发 测试报告 Allure

【体验有奖】玩转 AIGC,函数计算 x 通义千问预体验,一键部署 AI 应用赢 Airpods

阿里巴巴云原生

阿里云 云原生 AIGC

测试左移右移,到底是什么?

老张

测试右移 测试左移

【Netty】「NIO」(二)阻塞模式与非阻塞模式

sidiot

Java 后端 Netty 6 月 优质更文活动

jvm中类和对象定义存储基础知识 | 京东云技术团队

京东科技开发者

Java JVM 虚拟机 企业号 6 月 PK 榜 对象定义存储

【堡垒机】北京堡垒机品牌哪家好?优势有哪些?

行云管家

堡垒机 IT运维 北京

vue2.x,vue3.x使用provide/inject注入区别

不叫猫先生

Vue 6 月 优质更文活动

当“代码农”遇上“码农”:揭秘主干开发的那些事儿 | 京东云技术团队

京东科技开发者

敏捷开发 单元测试 代码评审 主干开发 企业号 6 月 PK 榜

Github127k点赞!堪称最强 Java面试指南!已跳槽字节涨15K

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

Java面试卷到家了?分享经典Java万字笔记,查漏补缺,备战面试

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

Flink实例:处理IoT事件流

TiAmo

IoT Flink实例 事件流 6 月 优质更文活动

漫画告诉你什么是生成式AI(一)

FN0

AIGC

慢 SQL 优化之索引的作用是什么? | 京东云技术团队

京东科技开发者

MySQL 数据库 innodb 慢SQL 企业号 6 月 PK 榜

漫画告诉你什么是生成式 AI(二)

FN0

AIGC

选择优质的led透明屏的7个步骤

Dylan

产品、 LED显示屏 售后服务

顶象发布《车企App安全研究白皮书》,剖析车企App两大风险

说山水

【JavaScript】手写Promise

不叫猫先生

JavaScript Promise 6 月 优质更文活动

山东淄博市具有资质的等保测评机构有几家?咨询电话多少?

行云管家

等保 等级测评 淄博

进阶篇丨链路追踪(Tracing)很简单:链路成本指南

阿里巴巴云原生

阿里云 云原生 链路追踪

立即报名 | Microservices June 微服务之月再度开启

NGINX开源社区

nginx 微服务

【Netty】「NIO」(三)剖析 Selector

sidiot

Java 后端 Netty 6 月 优质更文活动

Serverless: AI everywhere的下一块拼图

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

AntDB数据库入选艾媒金榜《2023年中国信创数据库企业TOP15》,位列前三

亚信AntDB数据库

AntDB 数据库· AntDB数据库 企业号 6 月 PK 榜

BH1750 传感器实战教学 —— 驱动移植篇

矜辰所致

传感器 I2C 6 月 优质更文活动

面试官:什么时候 MySQL 查询会变慢?

做梦都在改BUG

Java MySQL 数据库

线程池性能提升之道:核心线程数选择与定制实战

做梦都在改BUG

Java 多线程 线程池

跨平台开发工具 kbone 实操经验分享

Onegun

小程序 跨平台 前端框架 kbone

人工智能创新挑战赛:海洋气象预测Baseline[4]完整版(TensorFlow、torch版本)含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测

汀丶人工智能

人工智能 数据挖掘 深度学习 LSTM 6 月 优质更文活动

“古老”编程语言的最新选择!华为云发布CodeArts IDE for C/C++

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

如何从抓包文件中分析慢请求

蓝胖子的编程梦

Wireshark tcpdump 抓包 网络抓包 抓包分析

滴滴开源自然语言理解模型训练平台DELTA_AI&大模型_蔡芳芳_InfoQ精选文章