写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003629
用户头像

发布了 283 篇内容, 共 106.5 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

5分钟速读之Rust权威指南(六)

wzx

rust

Flink的广播变量

大数据技术指南

大数据 flink 5月日更

产品思维

lenka

5月日更

【偶尔一道ctf】xctf adword mobile easy-apk

Thrash

数据预处理&特征工程

Qien Z.

Python 5月日更

父母为什么催婚,而你又在逃避什么

小天同学

婚姻 爱情 5月日更

ArrayList vs LinkedList

ltc

ArrayList linkedlist

数据挖掘从入门到放弃(七):TensorFlow和keras实现线性回归LinearRegression

数据社

机器学习 5月日更

写给大神

小梨蕊

情人节 520单身福利 520 单身福利

架构学习笔记:复杂度来源

风翱

5月日更 架构复杂度

IPFS与 Filecoin的区别是什么?

meio

IPFS Filecoin

一款开源小工具,提升K8S资源管理幸福感!

Rancher

夺魁!亚马逊云科技荣膺中国数据管理解决方案领导者!

亚马逊云科技 (Amazon Web Services)

破茧成蝶,如何用数据之力重塑您的业务?| 云途专栏

亚马逊云科技 (Amazon Web Services)

520,珍惜眼前人

数据社

520 520单身福利 520 单身福利

Dubbo 延迟与粘滞连接

青年IT男

dubbo

从外包跳槽到大厂,我用了55天成功逆袭。

Java 程序员 架构 面试

SWOT分析模型

石云升

创业 战略 职场经验 5月日更

区块链技术在数字农业领域的应用挑战

CECBC

亚马逊云科技宣布在上海设立生命健康行业数字化赋能中心

亚马逊云科技 (Amazon Web Services)

API网关才是大势所趋?SpringCloud Gateway保姆级入门教程

Zhendong

Java spring API 网关

为什么“放弃”?

Nydia

学习

博睿数据多点开花,数据链DNA加速走进金融、医疗、政企行业

博睿数据

数据链DNA

全面隔绝虚拟货币暴涨暴跌风险

CECBC

发布两小时,Github访问量破百万,阿里内部首次公布的 Java10W 字面经有多强?

Java 程序员 架构 面试

【签约计划】试用期规则

InfoQ写作社区官方

签约计划 热门活动

NetCore配置文件使用全过程

happlyfox

520单身福利

医疗数字化:区块链或成最强辅助

CECBC

医疗

【epoll】epoll多路复用和Reactor设计思想

Linux服务器开发

后端 网络编程 C/C++ epoll Linux服务器开发

线程与线程池的那些事之线程篇

秦怀杂货店

Java 线程 多线程 进程 并发

造车潮

ES_her0

5月日更

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章