Spark Summit EU重头戏：TensorFlow、结构化的流和GPU硬件加速

Spark Summit EU 2016 上星期在布鲁塞尔召开，其中大会中的重头戏是 Apache Spark 集成深度学习库 TensorFlow 、使用结构化的流进行在线学习和 GPU 硬件加速。

大会第一日最具特色的是预览了由 Spark 2.0 引入的一个创新。该 API 是针对 DataFrames 和 Datasets 简化了的接口，使其更容易去开发大数据应用。这个第二代的 Tungsten 引擎通过把 MPP 数据库的理念应用到数据处理查询使处理更接近于硬件了：针对中间数据和以节省空间的面向列方式保存在内存中的数据，生成的字节码充分利用 CPU 寄存器的能力。

不管 API 是否使用过，数据操作图都是通过 Catalyst Optimizer 优化过的，它针对所有集群上的计算指令生成执行计划，并针对每个操作进行优化。

结构化的流，这是作为阿尔法版针对流发布的一个新的高层API，在本次大会中也做了推介。该API 集成了Spark 的Dataset 和DataFrame，使开发人员可以以类似于Spark 批量API 的方式描述从（到）外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性，并使事务型系统可以与存储系统集成在一起（比如HDFS 和AWS S3）。

在大会第二天，Databricks 的CEO Ali Ghodsi 将Spark 描绘成了将AI 大众化的一款工具，它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候，深度学习类库TensorFlow 通过一个称为 TensorFrames 的类库集成运行于 Spark 之上。这个类库允许在 DataFrames 和 TensorFlow 之间在运行期传递数据。

数据科学专题召开了一个会议，主要围绕的主题是如何结构化流使机器学习具有弹性，并使其可以做到在线学习，这就有可能做到根据到达的数据去更新一些机器学习模型了，而不是采用一批离线任务去执行模型训练。

最后一个重头戏是在 Databricks 平台支持GPU 和更多深度学习类库集成的公告。GPU 的支持是通过像 CUDA 这样的硬件类库完成的，并可以在 Databricks 中预先构建它，据说这样集群设置成本就会有更低了。

查看英文原文： Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

创作场景

Spark Summit EU 重头戏：TensorFlow、结构化的流和 GPU 硬件加速