5月6日，在QCon全球软件开发大会（北京站）2019上，蚂蚁金服副CTO胡喜正式宣布开源机器学习工具SQLFlow，他在演讲中表示：“未来三年，AI能力会成为每一位技术人员的基本能力。我们希望通过开源SQLFlow，降低人工智能应用的技术门槛，让技术人员调用AI像SQL一样简单。”据介绍，SQLFlow能够抽象出端到端从数据到模型的研发过程，配合底层的引擎及自动优化，具备基础SQL知识的技术人员即可完成大部分的机器学习模型训练及预测任务。SQLFlow 由何而来？它与谷歌发布的 BigQueryML 有何不同之处？蚂蚁金服对于 SQLFlow 未来还有哪些规划？InfoQ 第一时间联系到蚂蚁金服 SQLFlow 项目负责人并进行了采访，本文整理自采访问答。

SQLFlow的目标是将SQL引擎和AI引擎连接起来，让用户仅需几行SQL代码就能描述整个应用或者产品背后的数据流和AI构造。其中所涉及的SQL引擎包括MySQL、Oracle、Hive、SparkSQL、Flink等支持用SQL或其某个变种语言描述数据，以及描述对数据的操作的系统。而这里所指的AI引擎包括TensorFlow、PyTorch等深度学习系统，也包括 XGBoost、LibLinear、LibSVM等传统机器学习系统。

SQLFlow开源项目链接：https://sqlflow.org/sqlflow

SQLFlow的研发团队认为，在SQLFlow和AI引擎之间存在一个很大的空隙——如何把数据变成AI模型需要的输入。谷歌开源的TensorFlow项目开了一个好头，TFX Data Transform和feature column API都是意图填补这个空缺的项目。但是这个空缺很大，是各种SQL引擎和各种AI引擎的笛卡尔积，远不是TensorFlow的这两个子项目就足以填补的，需要一个开源社区才行。要填补好这个空缺，需要先让用户意识到其重要性，这也是蚂蚁金服开源SQLFlow的意图之一。

SQLFlow位于AI软件系统生态的最顶端，最接近用户，它也位于数据和数据流软件生态之上。

其实，将SQL和AI连接起来这个想法并非SQLFlow原创。谷歌于2018年年中发布的BigQueryML同样旨在“让数据科学家和分析师只用SQL语言就可以实现流行的机器学习功能并执行预测分析”。除了Google的BigQueryML，微软基于SQL Server的AI扩展，以及Teradata的SQL for DL同样旨在连接SQL和AI，让人工智能的应用变得像SQL一样简单。而SQLFlow与上述各个系统最根本的差异在于：SQLFlow 是开源的，以上系统都不是。

开发SQLFlow的初衷

蚂蚁金服和很多互联网公司一样，不同产品背后有很多功能都依赖于AI，比如用户信用的评估就是一套预测模型。到目前为止，每一个这样的功能的实现，都依赖一个工程师团队开发多个子系统——读取数据库或者在线日志流、这两类数据的join、各种数据筛选、数据到模型输入（常说的features）的映射、训练模型、用训练好的模型来做预测。整个过程下来耗时往往以月计，如果加班加点放弃写unit test代码，可能缩短到以周记。

以上问题正是SQLFlow系统希望替工程师们解决的问题。蚂蚁金服拥有数千数据分析师，他们日常工作用的就是SQL语言。虽然数据分析师在互联网行业往往不像用Python、Java、C++ 的工程师那样醒目，但是在很多有面向商业伙伴的业务的公司里，比如LinkedIn，他们的贡献和人数都能与工程师相匹敌。SQLFlow最早的初衷，就是希望解决分析师既要操作数据又要使用 AI、往往需要在两个甚至更多的系统之间切换、工作效率低的窘境。

SQLFlow旨在大幅提升效率，让上述功能实现所花费的时间进一步缩短到能以日计，甚至以小时计的程度。

要达到这样的效率，必须有一种效率极高的描述工作意图的方式。SQL 是一种典型的描述意图，而不描述过程的编程语言。用户可以说我要join两个表，但是不需要写循环和构造hash map来描述如何join两个表。这个特性使得SQL能极大地提升开发效率，这正是SQLFlow选择扩展SQL语法支持AI这条思路的原因。

不过，高效率的背后是更大的工程技术挑战。SQLFlow需要做到能根据用户的意图，自动生成达到意图的Python、C++、Go语言的程序。

SQLFlow的架构设计

设计目标

在连接SQL和AI应用这一方向上，业内已有相关工作。开发者可以使用像DOT_PRODUCT这样的运算符在SQL中编写简单的机器学习预测（或评分）算法。但是，从训练程序到SQL语句需要进行大量的模型参数复制粘贴的工作。目前在一些商业软件中，已经有部分专有SQL引擎提供了支持机器学习功能的扩展。

Microsoft SQL Server：Microsoft SQL Server支持机器学习服务，可以将R或Python编写的机器学习程序作为外部脚本运行。
Teradata SQL for DL：Teradata也提供了RESTful服务，可以通过扩展的SQL SELECT语法调用。
Google BigQuery：Google BigQuery通过引入CREATE MODEL语句让用SQL实现机器学习成为可能。

但上述已有的解决方案都无法解决蚂蚁金服团队的痛点，他们的目标是打造一个完全可扩展的解决方案。

这一解决方案应与许多SQL引擎都兼容，而不是只能兼容特定版本或类型的SQL引擎。
它应该支持复杂的机器学习模型，包括用于深度学习的TensorFlow和用于树模型的XGBoost。
能够灵活地配置和运行前沿机器学习算法，包括指定特征交叉，无需在SQL语句中嵌入Python或R代码，以及完全集成超参数估计等。

应对上述挑战的关键在于打造一套SQL扩展语法。研发团队首先从仅支持MySQL和TensorFlow的原型开发开始，后续计划支持更多SQL引擎和机器学习工具包。

从SQL到机器学习

SQLFlow可以看作一个翻译器，它把扩展语法的SQL程序翻译成一个被称为submitter的程序，然后执行。 SQLFlow提供一个抽象层，把各种SQL引擎抽象成一样的。SQLFlow还提供一个可扩展的机制，使得大家可以插入各种翻译机制，得到基于不同 AI 引擎的 submitter 程序。

SQLFlow对SQL语法的扩展意图很简单：在 SELECT 语句后面，加上一个扩展语法的TRAIN从句，即可实现 AI 模型的训练。或者加上一个 PREDICT 从句即可实现用现有模型做预测。这样的设计大大简化了数据分析师的学习路径。

此外，SQLFlow也提供一些基本功能，可以供各种 submitter 翻译插件使用，用来根据数据的特点，推导如何自动地把数据转换成 features。这样用户就不需要在TRAIN从句里描述这个转换。

以上这些设计意图在SQLFlow的开源代码中都有体现。当然，SQLFlow开发时间还比较短，仍然存在很多做的不够细致的地方。蚂蚁金服将其开源的另一个目的，就是希望能够和各个SQL引擎团队和各个AI团队一起打造这座横跨数据和AI的桥梁。

基于Go语言开发

据介绍，SQLFlow基于Go语言开发，Go语言的众多优点使其成为了SQLFlow研发团队的首选。除了Go社区讨论较多的优势以外，以下两点被重点提及：

首先Go容易学习却拥有极高的开发效率。它的keyword数量比C语言还要少，但是描述能力（平均每一行代码能表示的意图）接近Python。

另一个原因是Go的代码库易于长期维护。一项工作用Python或者C++来写，会有很多种写法，都能跑。用Go来写，往往只有一种写法。这就使得Go程序员社区里不会有很多风格共存，也就不需要Google C++ style 这样的代码规范来限制不许用 C++ 的哪些特性，也不会像 Python 代码开发时那样，各种代码风格之间形成鄙视链，在code review过程里带来不必要的争执。

与阿里PAI的关系

SQLFlow研发团队认为，AI和机器学习的生态可以分为很多层。其中TensorFlow、PyTorch、XGBoost、LibLinear这些系统位于最底层，距离终端用户最远，只有很硬核的用户才能熟练掌握和使用，而这部分用户在互联网从业者里占的比例较小。

SQLFlow和阿里推出的机器学习平台PAI均位于生态的最顶层，需要调用下层的技术栈，二者均直接面对最终用户，而这些用户中可能有大量并不具备AI背景知识。

PAI系统通过先进的图形用户界面来解决AI难理解、难应用的挑战——比如托拽基础AI组件来构造复杂的模型和数据流。

SQLFlow则通过写SQL程序的方式来实现这一目标。有能写下来的程序，就容易存档，容易Code Review，容易分享知识，容易集思广益，容易高效率迭代。此外，敲键盘写程序比动鼠标拖拽快。

SQLFlow项目负责人表示，SQLFlow和PAI都是有意思且有意义的尝试，二者的发展都值得持续观察。

SQLFlow优化工作

SQLFlow目前依赖TensorFlow等底层引擎来实现训练和预测。为了提升SQLFlow在机器学习模型的训练和预测性能，蚂蚁金服有一个团队专门做硬件加速AI计算的工作，最近已经有了一些令人惊喜的成绩，希望在不久的将来可以和大家分享细节。另外还有一个兄弟项目专门维护蚂蚁金服对TensorFlow的功能扩展，也和性能相关。

SQLFlow项目负责人表示，训练和预测只是整个AI产品功能长长的链条中的两个环节。SQLFlow 这个项目是为解决整个链条构建而打造的，其中有很多环节的耗时比AI的训练和预测多得多，因此还有极大的性能提升的空间。比如很多SQL引擎并不支持让一个分布式AI程序并发读取其中的数据，如果SQLFlow能够解决类似的吞吐量限制，AI的总体效率能提高数倍甚至数十倍。

在对机器学习算法的支持方面，SQLFlow设计的初衷就是要复用各个AI引擎各自的模型库。目前SQLFlow支持TensorFlow Estimator规范的模型。比如SQLFlow扩展语法中SELECT … TRAIN DNNClassifier … 这个写法，DNNClassifier就是一个 Python class的名，在这个例子中是一个派生自tf.Estimator的class。SQLFlow研发团队也正在做支持Keras模型的相关工作，团队也在考虑规范XGBoost模型的程序写作，使其可以被SQLFlow用户方便地调用。

这些工作背后的思路是希望互联网行业常见的三类技术角色：分析师、研究员、工程师的分工更清晰，从而能更专注发挥各自特长：分析师因为了解数据所以写SQL，调用DNNClassifier这样由研究员用Python写的模型；研究员不用操心分布式计算和模型到底是如何被分布式训练（或预测）的，这部分工作留给工程师。与此同时，SQLFlow作为一种粘合剂，把这三类角色的产出有机结合，以便更加高效地构造产品。

SQLFlow未来规划

SQLFlow当前已经能够带来研发效率的提升，但尚不完美，目前SQLFlow还存在以下问题有待解决：

第一个问题是parsing。SQLFlow 目前已经对接 MySQL，正在对接 Hive 和阿里云上的MaxCompute，将来还希望能对接更多公司正在使用的 SQL 引擎。这些引擎的SQL语法大都符合SQL标准，但是总有一些自己独特的扩展，而用户往往不知不觉地用到了这些特点。SQLFlow 希望用户能在已有的 SELECT 语句之后，通过简单地添加一个TRAIN或者PREDICT 从句，即可实现数据和 AI 的互联，这就要求SQLFlow支持各个SQL引擎独到的语法特点。

第二个问题是数据到 feature 的映射的自动化。目前 SQLFlow 是根据 SQL 字段的类型（INT、FLOAT、TEXT、BLOB）来自动化映射到 feature column API，比如 numeric_column 或者categorical_column_with_vocabulary 或者bucketized_column。其实很多 TEXT 字段里存储的信息很复杂，可能是一个yaml 或者 json，所以需要扫描（至少一部分）数据，才能精准地判断这个映射。类似的，一个 BLOB 字段里可能是 protobuf message 的 encoding，encode的是一个 TensorFlow 的 tensor。

第三个问题是 AI 引擎。 TensorFlow、PyTorch、XGBoost、LibLinear这些AI引擎的分布式计算能力都有一些问题。TensorFlow原生支持分布式训练，但不支持容错，一个进程挂了，整个作业就挂了。虽然这还可以通过checkpointing解决，但是不容错就不能弹性调度，不能弹性调度就意味着集群利用率可能极差。比如一个有N个GPU的集群上在运行一个作业，使用了一个GPU；此时一个新提交的作业要求使用N个GPU，因为空闲GPU个数是 N-1，所以这个新的作业不能开始执行，而是得一直等数小时甚至数天，直到前一个作业结束、释放那个被占用的GPU。这么长时间里，集群利用率< 1/N。关于这个问题的解决方案，百度PaddleEDL和阿里集团的XDL做了一些很有益的探索。希望业界把过分集中于AI运行时间优化的眼光，分一部分到减少等待时间上。

接下来蚂蚁金服将致力于推动SQLFlow在蚂蚁金服业务和蚂蚁金服以外的公司的使用，让SQLFlow项目成为整个社区的共同工作，从中收获更多的反馈，引导项目的发展方向，也帮助明确各项工作的优先级。

令SQLFlow团队感到欣喜的是，虽然SQLFlow刚开源，但目前已经有来自美国和中国几大互联网公司的贡献者参与到社区工作中来。由于每个公司使用的SQL引擎不同，如果SQLFlow核心团队能提供比较好的数据层抽象，那么来自不同公司的贡献者就能比较容易地把SQLFlow适配到自己公司的引擎上。类似的，支持多种AI引擎的方式也是如此。

此外，SQLFlow团队希望各个公司的研究员们能够参与到开源项目中来，分享各自的模型，未来SQLFlow会支持各种形式的模型，以便分析师使用。

过去这几年，蚂蚁金服一直积极参与开源社区共建，自2011年宣布第一波开源项目以来，开源项目数量每年皆有增长。目前蚂蚁金服已有 30 多个开源项目，其中，Ant Design项目已获三万多Star，有600 多人参与项目建设，EggJS和SOFA 系列也成为了社区热门。

在SQLFlow的GitHub项目中，蚂蚁金服提供了SQLFlow的安装指引以及快速入门的示例，对此项目感兴趣的开发者不妨一试。也欢迎留言反馈你对SQLFlow项目的建议和使用感受。

再次附上SQLFlow开源项目链接：https://sqlflow.org/sqlflow

扩展阅读：

谷歌BigQuery ML正式上岗，只会用SQL也能玩转机器学习！

SQL足以解决你的问题，别动不动就机器学习

7月12日深圳ArchSummit全球架构师峰会上，来自美团外卖、阿里妈妈和腾讯的技术专家将同台分享调度、机器学习排序和云上智能机器人系统内容。

创作场景

会 SQL 就能搞定 AI！蚂蚁金服重磅开源机器学习工具 SQLFlow