50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Lambda 表达式让 Spark 编程更容易

  • 2014-04-16
  • 本文字数:1224 字

    阅读完需:约 4 分钟

近日,Databricks 官方网站发表了一篇博文,用示例说明了lambda 表达式如何让Spark 编程更容易。文章开头即指出,Spark 的主要目标之一是使编写大数据应用程序更容易。Spark 的Scala 和Python 接口一直很简洁,但由于缺少函数表达式,Java API 有些冗长。因此,随着Java 8 增加了 lambda 表达式,他们更新了 Spark 的 API。Spark 1.0 将提供 Java 8 lambda 表达式支持,而且与 Java 的旧版本保持兼容。该版本将在 5 月初发布。

文中举了两个例子,用于说明 Java 8 如何使代码更简洁。第一个例子是使用 Spark 的 filter 和 count 算子在一个日志文件中查找包含“error”的行。这很容易实现,但在 Java 7 中需要向 filter 传递一个 Function 对象,这有些笨拙:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("error");
}
});
long numErrors = lines.count();

在 Java 8 中,代码更为简洁:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
.filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在 Java 7 中,实现代码如下:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
// 将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String line) {
return Arrays.asList(line.split(" "));
}
});
// 将单词转换成 (word, 1) 对
JavaPairRDD<String, Integer> ones = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String w) {
return new Tuple2<String, Integer>(w, 1);
}
});
// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
counts.saveAsTextFile("hdfs://counts.txt");

而在 Java 8 中,该程序只需要几行代码:

复制代码
JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
.reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于 Spark 的信息,可以查看官方文档。Spark 只需下载解压即可运行,而无须安装。


感谢辛湜对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-04-16 00:309759
用户头像

发布了 256 篇内容, 共 98.4 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

大数据-68 Kafka 日志存储 与 LogSegment 机制全面详解 实机实测

武子康

Java 大数据 kafka 分布式 消息队列

实战分析前端优化工具Performance面板!

OpenTiny社区

性能优化 前端 OpenTiny

鸿蒙NEXT应用全球化之路:国际化与本地化

最新动态

新客户 | 上亿条油罐数据秒查,智慧加油站告别慢查询

TDengine

tdengine 时序数据库 tsdb

LED球形屏与传统LED显示屏5大区别

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

鸿蒙分布式商城应用开发探究

最新动态

从 VMware 到超融合:合规与性能双重变革下的必然选择

智驱前线

vmware 超融合

MyEMS:以开源智能为笔,绘就能源可持续发展新图景

开源能源管理系统

开源 能源管理系统

人工智能驱动下,海外舆情监测的技术革新与应用

沃观Wovision

人工智能、 沃观Wovision 舆情监测系统

仓储管理系统(WMS)(源码+文档+讲解+演示)

深圳亥时科技

开源‘

1688店铺所有商品API详解

tbapi

1688API接口 1688数据接口 1688店铺数据采集 1688店铺所有商品

当 AI SaaS 的边际成本不再为零,Cursor 是如何设计定价策略的?

Baihai IDP

人工智能 AI SaaS cursor

拆解需求层级:如何让价值精准传递,撬动产品成功?

IPD产品研发管理

多平台服务中的代码混淆与内存安全:ArkTS 应用的安全优化

最新动态

从TikTok到X:全球社交媒体平台上的危机预警机制

沃观Wovision

社交媒体 海外舆情监控 沃观Wovision

1688商品评论API秘籍!轻松获取商品评论数据

tbapi

1688商品评论数据接口 1688商品评论API 1688API 1688评论API

MyEMS:数字化能源管理系统的技术架构与能效优化实践

开源能源管理系统

开源 能源管理系统

CST软件教程:CST如何设置电压监视器

思茂信息

电磁 仿真 CST软件

从 VMware 到国产超融合:平滑迁移与效能跃迁的技术实践

智驱前线

九宫格自由流转拼图游戏

最新动态

轻松上手-Navigation路由 H5

最新动态

鸿蒙NEXT安全访问新范式:系统Picker与安全控件解析

最新动态

开发者必看!前端性能调优工具Performance面板实战

OpenTiny社区

性能优化 前端

GPT-5时代,咕泡人工智能深度学习班重磅升级!

咕泡科技

人工智能 咕泡ai 咕泡科技 gpt-5

如何在鸿蒙NEXT系统中构建安全的数据防泄漏体系

最新动态

HarmonyOS NEXT分布式管理核心功能解析:网络服务和数据传输的实现二

最新动态

AI 陪伴市场 2025 收入预计破 1.2 亿美元;语音助手 Commitify:AI 打电话追踪用户任务进度丨日报

声网

鼎捷数智新书创想会:“AI+”的未来已来,面对窗口期鼎捷只争朝夕

人称T客

MyEMS:企业低碳转型中的能效价值挖掘与数字化管控范式

开源能源管理系统

开源 能源管理系统

NocoBase 本周更新汇总:优化及缺陷修复

NocoBase

开源 低代码 零代码 无代码 版本更新

TiDB Grafana 3000 端口漏洞问题处理方案

TiDB 社区干货传送门

管理与运维

Lambda表达式让Spark编程更容易_语言 & 开发_马德奎_InfoQ精选文章