写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003686
用户头像

发布了 283 篇内容, 共 108.8 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第七周课程笔记及心得

Airs

架构一期第七周作业

Airs

第七周作业

Geek_ce484f

极客大学架构师训练营

JVM真香系列:轻松理解class文件到虚拟机(下)

田维常

JVM

组合模式

猴子胖胖

设计模式 Go 语言

架构师训练营第三周作业

leo

极客大学架构师训练营

[架构师训练营第 1 期] 第七周学习总结

猫切切切切切

极客大学架构师训练营

第七周总结

fmouse

极客大学架构师训练营

应用实战——数据库设计时设计标识字段的一些思考【mysql】

老农小江

数据库设计 实战

《Java并发编程的艺术》.pdf

田维常

电子书

架构师训练营—第七周学习总结

Geek_shu1988

极客大学架构师训练营

架构师训练营—第七周作业

Geek_shu1988

性能优化一第七周作业「架构师训练营第 1 期」

天天向善

设计模式

小黄鱼

极客大学架构师训练营

【第七周】课后作业

云龙

架构师训练营第三周学习笔记

李日盛

设计模式

《一本小小的MyBatis源码分析书》.pdf

田维常

电子书

Architecture Phase1 Week7:Summarize

phylony-lu

极客大学架构师训练营

Week3小结

幸福小子

设计模式

week07作业

龙卷风

架构师一期

第七周作业总结

Geek_ce484f

极客大学架构师训练营

架构师训练营第 1 期 -第七周作业

睁眼看世界

极客大学架构师训练营

第七周作业

fmouse

极客大学架构师训练营

多团队如何评估故事点(译) ——来自Mike Cohn的建议

Bruce Talk

敏捷开发 Agile 估算与计划

JVM真香系列:轻松理解class文件到虚拟机(上)

田维常

JVM

第三章课后作业

博博

Week3作业一

幸福小子

单例模式

性能测试中并发量与响应时间和吞吐量的关系

天天向上

极客大学架构师训练营

[架构师训练营第 1 期] 第七周命题作业

猫切切切切切

极客大学架构师训练营

7.7 第七周课后练习

张荣召

架构 2 期 - 第三周作业(1)

浮生一梦

极客大学架构师训练营 第三章作业 2组

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章