Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章

Apache Spark 第一版发布时隔两年后， Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境，主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能，根据 Spark 的开发计划，主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询，这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API，同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代，后者更加侧重于基于管线的API，这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存，Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models（GLM）、朴素贝叶斯和Survival Regression。

借助新增的Datasets 类，DataFrames 和Datasets 已实现了统一，可支持Scala 和Java 编程语言，同时也可充当结构流（Structured streaming）的抽象。不支持编译时类型安全（Compile time type safety）的语言暂时还无法做到这一点，此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级，可支持对基本类型进行专门化（Specialization）。老的 API 已被弃用，但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集，借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下，性能也有所增强，执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks 。

查看英文原文: Apache Spark 2.0 Technical Preview

评论

发布

暂无评论

嵌入式 Linux 入门（二、Linux 文件系统、文件类型及权限管理）

Linux 文件系统 10月月更

学习线程池原理从手写一个线程池开始

Java 线程池 10月月更

ScheduledThreadPoolExecutor踩过最痛的坑

Java 线程池 10月月更

苏州太仓｜第六届“创赢太仓”全球创业大赛博士后专场项目征集公告

科兴未来News

生物医药双创大赛承办苏州医疗器械博士后

一文全貌了解线程池的正确使用姿势

Java 线程池 10月月更

“程”风破浪的开发者｜走近 testflight 上架

No Silver Bullet

学习方法 10月月更 “程”风破浪的开发者 testflight iOS上架

Docker | 网络及原理探究

Docker 运维 10月月更

ES6之let、const与var

JavaScript 前端 ES6 10月月更

深入浅出ES6中的解构

JavaScript 前端 ES6 10月月更

Flex布局教程:语法篇

css3 前端 10月月更

Linux基础命令

Linux ubuntu 10月月更

【kubernetes技术专题】Kubernetes架构分析介绍篇（进阶篇）

Kubernetes 10月月更

程”风破浪的开发者｜说说我的学习方法

学习方法 “程”风破浪的开发者

正则表达式入门与进阶

正则表达式 10月月更

spring整合mybatis、springMVC（总结）

spring 10月月更

python爬虫--网络歌曲

Python 爬虫 10月月更

Docker | Compose创建mysql容器

MySQL Docker 10月月更

Vue组件入门（十二）具名插槽

Vue 10月月更

Go语言入门—05数组

Go golang 后端 10月月更

Pycharm配置远程解释器并自动上传代码

pycharm 开发工具 10月月更

Linux 驱动开发：USB无线wifi驱动开发(MT7601)、完成WIFI管理工具安装

Ubuntu 20.04上安装和配置MySql5.7

ubuntu 开发工具 10月月更

科兴未来-江苏盐城｜第六届绿巢环保创业大赛火热启动

科兴未来News

新能源双创低碳环保

【一Go到底】第二十二天---函数参数传递方式、变量作用域

Go golang 10月月更

node.js

急需上岸的小谢

日志的艺术

Spring Boot概述（一）

前端布局之浅谈BFC

CSS 面试前端 10月月更

可靠消息最终一致性分布式事务

C++后台开发

数据库分布式后端开发 linux开发 C++开发

消息中间件：概念&应用

消息中间件

spring事务失效的情况

急需上岸的小谢