产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

达摩院 AliceMind 上新!首个中文表格预训练模型发布,已向业界开源

  • 2021-12-02
  • 本文字数:834 字

    阅读完需:约 3 分钟

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源

12 月 2 日,InfoQ 获悉,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP,该模型在全球权威表格数据集 WikiSQL、SQuALL 上取得了业界最优效果,且模型和训练代码均已对外开源。


开源地址:


https://github.com/alibaba/AliceMind



表格是应用普遍的结构化数据,也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句,阻碍了表格查询的大规模应用。


新兴的表格问答技术,可将自然语言转换为查询语句,使用户能通过简单问句直接与表格数据库交互,具有广泛应用前景。

 

不过,由于表格内容复杂多样、涉及各行业专业知识,表格问答任务一直是自然语言处理领域的难题。此前,谷歌、微软、亚马逊等海外公司开展了相关探索,但在中文场景,该方向处于空白。

 

本次,达摩院对话智能团队提出了首个中文表格预训练模型 SDCUP,其基于“模式依存”方法,通过模型直接预测自然语言与表格结构内容的关键词映射,提升了表格问答的准确率。


具体而言,即参考语义依存分析方法对 Schema Dependency 任务建模,使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示,然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时,团队使用了模仿人类的“课程学习”方法减少数据噪声。

 


 SDCUP 生成 SQL 示例


在耶鲁大学发布的业界最大规模的英文文本-表格数据集 WikiSQL,以及微软构建的英文文本-表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。在达摩院构建的表格问答中文数据集 TaBLUE 上,SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。


 SDCUP 在 WikiSQL 数据集上取得业界最优效果

 


 SDCUP 在 SQuALL 数据集上取得业界最优效果

 

达摩院资深算法专家李永彬介绍,SDCUP 模型是达摩院表格对话技术系列研发的一部分,后续将持续对外开源。其相关技术先后在四大国际公开数据集 WikiSQL、Spider、SParC、CoSQL 上取得第一。

 

据了解,该技术完成了产品化,已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。

2021-12-02 18:152619
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 533.8 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

轻松在 Neolink.AI 上搭建你的个性化 ChatGPT 服务

MatrixOrigin

ChatGPT 定制

从空投到OG NFT:全方位解读Lumoz主网上线前的活动

石头财经

Golang字符串类型原理及其使用方法

百度搜索:蓝易云

鸿蒙NEXT开发案例:计数器

zhongcx

2024-11-16:哈沙德数。用go语言,如果一个整数能够被它的各个数位上数字的和整除, 我们称这个整数为哈沙德数(Harshad number)。 给定一个整数 x, 如果 x 是哈沙德数,则返回

福大大架构师每日一题

福大大架构师每日一题

直播回顾 | MatrixOne 2.0 AI 向量数据库与GenAI能力深度解析

MatrixOrigin

数据库 云原生 AI搜索

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

大瞿科技

鸿蒙 NEXT 开发案例:指尖抓阄

zhongcx

鸿蒙

电子合同风险管理:签约前的注意事项

易成研发中心

电子合同 电子合同软件

高并发编程/消息传递机制避免锁提高并发效率,不懂的赶紧进来(设计篇)

肖哥弹架构

Java 并发编程 高并发

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

加密眼界

Viper,一个Go语言配置管理神器!

左诗右码

Golang中int类型和字符串类型如何相互转换?

百度搜索:蓝易云

golang在goland编译时获取环境变量失效

百度搜索:蓝易云

30+程序员降薪跳槽到银行,技术优势在晋升体系下成了空谈

码哥字节

银行 互联网人 职场晋升

探索《Crypto Rumble》游戏:核心玩法篇

股市老人

Linux关于memory cgroup的几个要点

百度搜索:蓝易云

鸿蒙NEXT开发案例:抽奖

zhongcx

鸿蒙

矩阵起源入选IDC《RAG与向量数据库市场前景预测》报告

MatrixOrigin

IDC 向量数据库

项目管理软件哪个好?8款热门推荐

爱吃小舅的鱼

docker镜像内执行命令显示:You requested GPUs: [0] But your machine only has: []

百度搜索:蓝易云

不同团队如何实现登录系统 (just for fun)

八苦-瞿昙

just for fun

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

股市老人

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

BlockChain先知

ESG,产品经理认证新热点

科技热闻

ESG,全才产品经理培训新特色

科技热闻

Red Hat Enterprise Linux 10 下载 - 红帽企业 Linux

sysin

redhat RHEL

如何识别和管理项目干系人?实用指导与技巧

爱吃小舅的鱼

干系人识别 干系人分类 干系人需求

《Django 5 By Example》阅读笔记:p165-p210

codists

Python django

从此告别代码泄露!提高Python性能的必备技巧

LLLibra146

Python 加密 代码保护 Cython

springboot整合工作常用框架中间件

恩爸编程

缓存 spring-cloud spring-boot 数据库、 消息列队

达摩院AliceMind上新!首个中文表格预训练模型发布,已向业界开源_AI&大模型_刘燕_InfoQ精选文章