SparkR 是 AMPLab 发布的一个 R 开发包,为 Apache Spark 提供了轻量的前端。SparkR 提供了 Spark 中弹性分布式数据集(RDD)的 API,用户可以在集群上通过 R shell 交互性的运行 job。例如,我们可以在 HDFS 上读取或写入文件,也可以使用 lapply 来定义对应每一个 RDD 元素的运算。
sc <- sparkR.init("local") lines <- textFile(sc, "hdfs://data.txt") wordsPerLine <- lapply(lines, function(line) { length(unlist(strsplit(line, " "))) })
除了常见的 RDD 函数式算子 reduce、reduceByKey、groupByKey 和 collect 之外,SparkR 也支持利用 lapplyWithPartition 对每个 RDD 的分区进行操作。
SparkR 也支持常见的闭包(closure)功能:用户定义的函数中所引用到的变量会自动被发送到集群中其他的机器上。参见一下例子中用户闭包中引用的 initialWeights 会被自动发送到集群其他机器上。
lines <- textFile(sc, "hdfs://data.txt") initialWeights <- runif(n=D, min = -1, max = 1) createMatrix <- function(line) { as.numeric(unlist(strsplit(line, " "))) %*% t(initialWeights) } # initialWeights is automatically serialized matrixRDD <- lapply(lines, createMatrix)
用户还可以很容易的在已经安装了 R 开发包的集群上使用 SparkR。includePackage 命令用于指示在每个集群上执行操作前读取开发包。以下是个例子:
generateSparse <- function(x) { # Use sparseMatrix function from the Matrix package sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3)) } includePackage(sc, Matrix) sparseMat <- lapplyPartition(rdd, generateSparse)
针对 SparkR 发布的消息,大数据创业公司 DataBricks 的创始人之一 @hashjoin (辛湜)在微博上评论到:
R 是数据分析最常用的工具之一,但是 R 能处理的数据不能大于一台机器的内存。过去有一些 R 和 Hadoop 结合的尝试一般都性能低下,用户体验差。今天 AMPLab 发布了 R 的 Spark 前端,利用 R 进行大数据交互分析,也可以在节点上利用 R 的数据分析库,是大数据的一个新利器。
@vinW :
我一直就说 R matlab 和 Spark 其实是一路的,内存流派的。Spark 这个分布式的高端搞法必将重振内存计算这个领域。
@刘思喆:
重磅消息,比预想的要早很多。
感谢辛湜对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。
评论