写点什么

Lambda 表达式让 Spark 编程更容易

  • 2014-04-16
  • 本文字数:1224 字

    阅读完需:约 4 分钟

近日,Databricks 官方网站发表了一篇博文,用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出,Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁,但由于缺少函数表达式,Java API 有些冗长。因此,随着Java 8 增加了 lambda 表达式,他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持,而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子,用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现,但在 Java 7 中需要向 filter 传递一个 Function 对象,这有些笨拙:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("error");
}
});
long numErrors = lines.count();

在 Java 8 中,代码更为简洁:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
.filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在 Java 7 中,实现代码如下:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String line) {
return Arrays.asList(line.split(" "));
}
});
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String w) {
return new Tuple2<String, Integer>(w, 1);
}
});
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中,该程序只需要几行代码:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
.reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息,可以查看官方文档。Spark 只需下载解压即可运行,而无须安装。


感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-04-16 00:309830
用户头像

发布了 256 篇内容, 共 100.6 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

华为云Flexus AI智能体“0门槛”免费体验,五大特性掀起AI转型潮​

YG科技

5大核心优势!华为云Flexus AI智能体解决AI应用的“最后一公里”

YG科技

华为云Flexus AI智能体:破解企业智能化转型的“最后一公里”难题

轶天下事

2025 GMVPS案例集重磅发布!“编委会特别推荐”称号揭晓,计算技术重塑千行百业

极客天地

工业零件包装称重如何选智能称重柜型号?

斯科信息

CK-GGT1 智能称重柜

华为云Flexus AI智能体:让企业智能化转型“轻装快跑”

轶天下事

华为云Flexus AI智能体:重塑企业智能化路径,一站式解锁效率革命

轶天下事

算法可视化平台 - 让算法学习变得直观生动

qife122

数据可视化 算法可视化

构筑信任的基石:深入解析SSL证书及其对网站安全的核心重要性

防火墙后吃泡面

AI 英语口语 App 的开发

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语

“0门槛”用AI成为现实!华为云Flexus AI智能体5大特性实现领先体验

YG科技

告别"人肉分析":Flexus AI智能体平台助力出海服务商的智能化升级之路

轶天下事

数字孪生项目开发的框架

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

AI不再是大厂专属!华为云Flexus AI智能体免费体验

YG科技

华为云Flexus AI智能体,让每家企业都拥有开箱即用的AI超能力

轶天下事

内置低代码平台权限管理最佳实践:在赋能与安全之间走钢丝

星云低代码中间件

低代码 数字化 业务系统

Apache Cloudberry 集成 ZomboDB 最佳实践以及中文检索

酷克数据HashData

Apache Cloudberry 内核探究|Runtime Filter 技术深度解析

酷克数据HashData

谷歌地图API | 数据驱动决策:谷歌地图助力金融业洞察市场潜力

Cloud Ace 云一

多智能体系统,迎接企业数智化的未来

智达方通

企业管理 企业管理软件 数智化管理

荣耀揭晓 | KWDB MVP 首批入选名单重磅公布!

KaiwuDB

数据库 KaiwuDB 分布式多模数据库 KWDB开源数据库

华为云Flexus AI智能体点击即用!中小企业也能“0门槛”拥抱AI

YG科技

0门槛部署,上线周期缩短80%!华为云Flexus AI智能体免费体验

YG科技

华为云Flexus AI智能体上线!积极拥抱AI,破解“增效降本”核心难题

轶天下事

AI预测在绿电供需匹配与动态调度中的具体应用

西格电力

能源革命 新能源产业 绿电直连 绿色电力

云栖实录 | 洋钱罐基于 EMR Serverless 产品构建全球一体化数字金融平台

阿里云大数据AI技术

大数据 spark 阿里云 StarRocks 洋钱罐

智慧灌区系统

深圳亥时科技

“开箱即用”打破AI应用壁垒!华为云Flexus AI智能体0门槛免费体验

YG科技

Flexus AI智能体:你的企业,离“智能世界”只差一次点击

YG科技

大模型成本太高?阿里云Serverless AI原生架构,教你极致省钱又稳健部署!

阿里巴巴云原生

阿里云 Serverless AI 云原生

AI时代下,看华为云Flexus AI智能体如何重塑企业生产力

轶天下事

Lambda表达式让Spark编程更容易_语言 & 开发_马德奎_InfoQ精选文章