写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152648
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 540.1 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

HTML中实现合并单元格

JDoe

html

git | IDEA 中如何压缩提交(压缩commit后再push 图文演示)

YoungZY

开发者工具 IDEA 开发工具

为什么要学习 Markdown?究竟有什么用?

JackTian

markdown markdown语法 markdown编辑器

一款开源且具有交互视图界面的实时 Web 日志分析工具!

JackTian

开源 GoAccess 实时 Web 日志分析工具 交互式查看器

写给产品经理的信(5):谈谈项目管理(青铜-王者)

punkboy

产品 极客时间,项目管理 项目管理 产品经理 项目

python实现·十大排序算法之基数排序(Radix Sort)

南风以南

Python 排序算法 基数排序

Python deepcopy一个优化

么么哒

Python

Server Queue 提高 QPS

风含叶

Python kafka 后端 队列

机器学习项目是如何开发和部署的?

陆道峰

人工智能 学习

最香远程开发解决方案!手把手教你配置VS Code远程开发工具,工作效率提升N倍

程序员柠檬

Linux 后台开发 vscode 后端

“新基建”方兴未艾,Smartbi Mining如何为产业数字化转型赋能?

infoq小陈

券商也“网红”,证券行业IT服务运维发展按下“快进键”

博睿数据

运维 APM 证券 券商 行情

纯CSS“返回顶部”特效

寇云

CSS css3

如何通过样本数据推断其分布

张利东

Python

地铁上看书的老外引发的思考

小天同学

写作 读书 个人感想 日常思考

团队与领导力健康检查 | 体检表

Bob Jiang

团队建设

为什么第三方联调应该先行?

大伟

GitHub 上十个好用的软件

彭宏豪95

GitHub 效率 工具

关于软件测试的三点思考

卓然

软件测试 测试 测试的价值 联现技术咖

如何设计数据中台

数据社

大数据 数据中台 数据仓库

前端工程化之创建项目

春生

大前端 全栈工程师

重学 Java 设计模式:实战原型模式

小傅哥

Java 设计模式 小傅哥 复杂代码优化 重构

互联网省份数据大揭秘,看看哪些地方是互联网的戈壁滩?

非著名程序员

程序员 互联网 IT

自定义构造python白名单__builtins__

么么哒

Python

写代码没几天,遇到一堆报错,我该怎么办

刘早起😶

Python 程序员 程序人生

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (十一)JUnit概述

编程道与术

Java 编程 软件测试 TDD 单元测试

只用CSS实现响应式Full-Width img 2种方法

寇云

CSS css3

自定义列表样式

寇云

CSS css3

偏头疼告诉我的,我想告诉每一个人

zkback

做好领路人——写给技术新人的导师建议

南方

管理 新人

这场大数据+AI Meetup,一次性安排了大数据当下热门话题

Apache Flink

大数据 flink 流计算 实时计算

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章