AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

Spark Summit EU 重头戏:TensorFlow、结构化的流和 GPU 硬件加速

  • 2016-11-22
  • 本文字数:843 字

    阅读完需:约 3 分钟

Spark Summit EU 2016 上星期在布鲁塞尔召开,其中大会中的重头戏是 Apache Spark 集成深度学习库 TensorFlow 、使用结构化的流进行在线学习和 GPU 硬件加速。

大会第一日最具特色的是预览了由 Spark 2.0 引入的一个创新。该 API 是针对 DataFrames 和 Datasets 简化了的接口,使其更容易去开发大数据应用。这个第二代的 Tungsten 引擎通过把 MPP 数据库的理念应用到数据处理查询使处理更接近于硬件了:针对中间数据和以节省空间的面向列方式保存在内存中的数据,生成的字节码充分利用 CPU 寄存器的能力。

不管 API 是否使用过,数据操作图都是通过 Catalyst Optimizer 优化过的,它针对所有集群上的计算指令生成执行计划,并针对每个操作进行优化。

结构化的流,这是作为阿尔法版针对流发布的一个新的高层API,在本次大会中也做了推介。该API 集成了Spark 的Dataset 和DataFrame,使开发人员可以以类似于Spark 批量API 的方式描述从(到)外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性,并使事务型系统可以与存储系统集成在一起(比如HDFS 和AWS S3)。

在大会第二天,Databricks 的CEO Ali Ghodsi 将Spark 描绘成了将AI 大众化的一款工具,它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候,深度学习类库TensorFlow 通过一个称为 TensorFrames 的类库集成运行于 Spark 之上。这个类库允许在 DataFrames 和 TensorFlow 之间在运行期传递数据。

数据科学专题召开了一个会议,主要围绕的主题是如何结构化流使机器学习具有弹性,并使其可以做到在线学习,这就有可能做到根据到达的数据去更新一些机器学习模型了,而不是采用一批离线任务去执行模型训练。

最后一个重头戏是在 Databricks 平台支持GPU 和更多深度学习类库集成的公告。GPU 的支持是通过像 CUDA 这样的硬件类库完成的,并可以在 Databricks 中预先构建它,据说这样集群设置成本就会有更低了。

查看英文原文: Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

2016-11-22 18:002184

评论

发布
暂无评论
发现更多内容

数据报告 | 美国民众健康状况和医疗需求研究报告

前嗅大数据

大数据 数据分析 数据报告

备受企业青睐的华为云CDN优势到底在哪?

路过的憨憨

Flink Shuffle 3.0: Vision, Roadmap and Progress

Apache Flink

大数据 flink 实时计算

2022年最全大厂面试真题解析:java集合+spring+并发编程+MyBatis

钟奕礼

程序员 Java 面试 Java、 java 编程

开源全球公司贡献 49 名,涛思数据荣登 2022 中国开发者影响力年度榜单

TDengine

tdengine 时序数据库

读书|我的2022年度阅读推荐

MavenTalker

推荐书单

MonographDB获得IT168“2022年度创新产品奖”

极客天地

大数据培训后的就业因素有哪些

小谷哥

腾讯云在中国公有云开发和基础设施平台分析师报告中入选领导者阵营

科技热闻

一个深度学习框架的年度报告

MegEngineBot

深度学习 年终总结 MegEngine

模块二作业-分析微信朋友圈的高性能复杂度

Geek_e3a35c

女生通过java编程学习好找工作吗?

小谷哥

什么是3D可视化,为什么要使用3D可视化

3DCAT实时渲染

Unity 3D渲染 3D可视化

【喜报】OpenCloudOS 荣获2022 中国技术力量年度榜单「十大开源新锐项目」

腾源会

开源 opencloudOS

建信信托真的可靠吗?投资者含泪控诉

鳄鱼视界

前端开发培训机构有什么推荐?

小谷哥

华为云CDN提升网站响应速度,让下载快人一步

路过的憨憨

恭喜 KubeVela 获得中国开源云联盟 2022 “优秀开源项目”

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

惊喜来袭!阿里内部Java开发成长手册(2022纯享版)开源

程序知音

Java 阿里 java面试 后端技术 Java面试八股文

Databend in 2022

Databend

华为云CDN加速服务,引领企业数字化发展潮流!

路过的憨憨

既要速度与激情,也要稳定和安全,华为云CDN让你速度和安全兼得

路过的憨憨

编程培训后程序员怎么提升自身开发水平?

小谷哥

【从零开始学爬虫】采集全国历史天气数据

前嗅大数据

数据采集 爬虫软件 爬虫教程 爬虫入门 爬虫入门教程

华为云CDN,助力安全企业下载服务,更好提升用户体验

路过的憨憨

阿里云弹性预测 AHPA:助力厨芯科技降本增效

阿里巴巴云原生

阿里云 云原生 弹性预测

2022“易观之星”奖项公布,聚焦数字经济,助力数智创新

易观分析

金融 易观 颁奖

对标阿里P7:高并发+Nginx+微服务+消息中间件+Netty+Redis+MySQL

程序知音

Java 数据库 JVM 高并发 后端技术

大数据培训学习有前途吗?

小谷哥

架构中实时引擎与离线渲染的主要优势

3DCAT实时渲染

Unity 渲染 实时渲染 AEC

Spark Summit EU重头戏:TensorFlow、结构化的流和GPU硬件加速_大数据_Alexandre Rodrigues_InfoQ精选文章