报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Salesforce 发布数据库自然语言接口 Photon

  • 2020-10-04
  • 本文字数:1320 字

    阅读完需:约 4 分钟

Salesforce发布数据库自然语言接口Photon

来自 Salesforce Research 和香港中文大学的一个科学家团队发布了一种叫作“Photon”的数据库自然语言接口(NLIDB)。该团队使用深度学习技术构建了一个在通用基准测试中达到 63%准确率的解析器,以及一个可以提示用户澄清模糊问题的错误检测模块。


该团队在最近的ACL 2020大会上演示了 Photon,团队成员 Victoria Lin 在最近的博文中描述了该系统。Photon 的核心是一个基于神经网络的语义解析器,它可以将人类用户的自然语言问题转换成 SQL 查询。解析器在Spider数据集上实现了 63.2%的匹配精度,这是迄今为止排名第二高的结果。Photon 还包含了一个问题校正器,当人类输入不能被翻译成 SQL,它可以检测出来。问题校正器使用“聊天机器人”风格的界面启动一个对话,并进一步完善问题。专业用户还可以直接以 SQL 的形式输入查询。Lin 表示:


从现代 NLP 的进步程度来看,我们相信一个自然语言信息系统的时代即将到来。


NLIDB 的目标是“民主化”从关系数据库提取有用数据的能力,允许用户用自然语言提问,而不需要用 SQL 等编程语言构造查询。与其他同类系统一样,Photon 使用一种被称为语义解析的策略,它将自然语言问题转换成逻辑形式——本质上是将人类语言转换成编程语言语句。Photon 的解析器基于一个神经网络,它的输入是一个与数据库模式相关联的自然语言问题,输出是一个 SQL 查询语句。解析器不能访问数据库的全部内容,但可以访问“范畴列”的值。解析器由一个预先训练好的 BERT 模型和一系列 LSTM 子网络组成。Photon 随后对网络输出执行波束搜索解码,并对结果应用静态 SQL 正确性检查。根据作者的说法,这带来了大约 5%的改进(基于 Spider 数据集)。


为了提高系统的健壮性,Photon 提供了一个问题校正器。校正器使用另一个神经网络——用来确定一个问题是否不能准确地转换成 SQL 的分类器。通过对可翻译问题进行“交换”和“删除”操作,研究人员构建了一个合成数据集来训练分类器。例如,问题“存在多少个国家”可能被转换成“存在多少个”。混淆检测器还可以识别问题中令人感到困惑的部分。这些问题被用于提供修正建议,它们通过聊天界面反馈给用户。


其他科技公司也在构建类似的 NLIDB 系统。微软研究院开发了一个叫作CAMP的神经网络语义解析系统,该系统使用一系列门控循环单元(GRU)将自然语言问题转换为 SQL 查询。谷歌的TAPAS采用了一种稍微不同的方法。TAPAS 的训练过程直接包含了表数据,而不是将自然语言解析为 SQL。Photon 的作者指出,在表数据上训练网络存在数据隐私问题。


在 Hacker News 的一个讨论帖子中,用户对 NLIDB 结果的质量发表了评论。一个用户指出:


模型不善于说“不知道”。不过我很乐观。每年都看到显著的进步(受 NLP 的实际进步推动),训练数据集也变得越来越有趣。现在有了会话数据集(例如https://yale-lily.github.io/cosql)),模型被训练问后续的问题,目标是“让系统来澄清模糊的问题、验证返回的结果,并告知用户那些无法回答或不相关的问题”。这可能是一个巨大的胜利。


Photon 的演示版本已经向公众开放。Lin 说,未来的工作包括“语音输入、自动完成和可视化输出”,但推出这些功能的具体日期尚未公布。


原文链接


Salesforce Releases Photon Natural Language Interface for Databases


2020-10-04 10:002499

评论

发布
暂无评论
发现更多内容

5个开源组件管理小技巧

SEAL安全

安全 软件供应链 开源组件

CnosDB 涅槃重生:弃用Go, 全面拥抱Rust

CnosDB

rust 物联网 时序数据库 开源社区 Go 语言

【技术人才懂的浪漫】TiDB 社区为你准备好了给另一半的“七夕节”礼物,回复:我要挑战,即可参与活动!

TiDB 社区干货传送门

【Docker 那些事儿】如何高效地搭建 Docker 私有仓库

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

历史的坑,只能尽量填平

技术小生

事故复盘 7月月更

用 Flutter 给小姐姐的照片调个颜色滤镜

岛上码农

flutter ios 前端 安卓开发 7月月更

Node.js基础入门

bo

前端 Node 7月月更

闭会算法好题之2020ICPC澳门站签到A题

KEY.L

7月月更

Python异常知多少

迷彩

Python 异常处理 7月月更

基于EasyCV复现DETR和DAB-DETR,Object Query的正确打开方式

阿里云大数据AI技术

深度学习 开源 自监督学习

企业遇到知识管理困境该怎么办?这里有解决方案!

Baklib

AWS Support Plan

冯亮

云计算 DevOps AWS 云计算架构师

技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once精准接入

SelectDB

数据库 flink 数据仓库 Doris

微服务间的通信协议和消息格式

穿过生命散发芬芳

7月月更 微服务通信

Iptables的基本原理

阿泽🧸

iptables 7月月更

项目越写越大,我是这样做拆分的

小鑫同学

项目架构 7月月更

运营商的时代之旅:种下5.5G的魔豆,攀上数字化的天空花园

脑极体

C 语言入门(八)

逝缘~

7月月更

排队助手 | 2022年6月产品更新日志

天天预约

微信小程序 SaaS应用 排队工具 便民服务

关于Java&JavaScript中(伪)Stream式API对比的一些笔记

山河已无恙

Java stream JavaScrip

SQL 改写系列六:谓词推导

OceanBase 数据库

别再说你不知道函数递归了-入门知识

芒果酱

C语言 7月月更

当转转严选订单遇到状态机

转转技术团队

架构 状态机

在互联网+的潮流中,企业客户服务该何去何从?

Baklib

互联网+ 客户服务

数字藏品加速破圈,助力产业发现新机遇

智捷云

NFT 区块链数字藏品 数字藏品 智捷云 智捷云科技

【刷题记录】14.最长公共前缀

WangNing

7月月更

模块2作业

十分钟生成影视级室内设计效果,红星美凯龙设计云如何升级传统家居行业

阿里云弹性计算

gpu 智能家居 异构计算

TOGAF中的本手和妙手

涛哥 数字产品和业务架构

企业架构 TOGAF

利用小程序运行时技术增强Flutter跨端开发属性

Speedoooo

flutter 小程序 移动开发 小程序容器

新星计划Day10【数据结构与算法】 排序算法

京与旧铺

7月月更

Salesforce发布数据库自然语言接口Photon_数据库_Anthony Alford_InfoQ精选文章