QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152710
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 555.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

公安合成作战指挥系统解决方案,警务实战指挥系统

如何拆分大型单体系统为微服务

Zhang

微服务

Java 并发编程——volatile 关键字解析

Antway

6月日更

JAVA对象直接输出的打印结果是什么?

加百利

Java 后端 字符串 6月日更

《原则》(十一)

Changing Lin

6月日更

区块链赋能新能源汽车新业态——车电分离

CECBC

【Vue2.x 源码学习】第十一篇 - Vue的数据渲染流程

Brave

源码 vue2 6月日更

沿着“云云协同”的桥梁,奔赴全面云化的产业之海

脑极体

【LeetCode】完全平方数Java题解

Albert

算法 LeetCode 6月日更

被勒索一月后比特币赎金被追回,现在价值几何?

CECBC

MySQL基础之九:子查询

打工人!

myslq 6月日更

面试系列-4 hash应用场景分析实践

李阿柯

php 面试 Redis 核心技术与实战

本来无一物,何处惹尘埃|靠谱点评

无量靠谱

JavaScript学习(一)——简介

空城机

JavaScript 大前端 6月日更

22 图 |M1 和 Docker 谈了个恋爱

悟空聊架构

Mac M M1 Dock 6月日更 dokcer

读深入ES6记[五]

蛋先生DX

ES6 6月日更

周小川:一些加密货币已经不太可能再回到支付领域

CECBC

Go http 包详解

Rayjun

Go 语言

Windows 使用 PowerShell 来管理另外一台 Windows 机器

HoneyMoose

记一次差点跑路的 RabbitMQ 运维经历

看山

运维 RabbitMQ 删库 6月日更

又一个重量级的分布式链路分析的轮子

代码先生

elasticsearch ELK 分布式链路 OpenTelemetry Data Prepper

明晚Django组队学习就要开始了

IT蜗壳-Tango

6月日更

动态规划电路布线问题(Java代码实现)

若尘

数据结构 6月日更

Kubernetes手记(8)- Service 配置清单

雪雷

k8s 6月日更

MySQL 中的反斜杠 \\,真是太坑了!!

xcbeyond

MySQL 6月日更

kubelet分析-pvc扩容源码分析

良凯尔

Kubernetes 源码分析 kubelet Ceph CSI

Windows PowerShell ISE 是什么和 PowerShell 有什么区别

HoneyMoose

并发王者课-黄金1:两败俱伤-互不相让的线程如何导致了死锁僵局

MetaThoughts

Java 多线程 并发

员工提出离职就消极怠工怎么办?

石云升

员工离职 职场经验 管理经验 6月日更

【21-3】Zabbix 重置 Admin 密码

耳东@Erdong

zabbix 6月日更

【译】是时候了解 CSS 逻辑属性了

KooFE

6月日更

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章