Cascading 是一个新式的针对 Hadoop clusters 的数据处理 API,它使用富于表现力的 API 来构建复杂的处理工作流,而不是直接实现 Hadoop MapReduce 的算法。
该处理 API 使开发者可以快速装配复杂的分布式流程,而无需“考虑” MapReduce 。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。
Cascading API 的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade 就是多个流的链接、分支和分组。
该 API 提供了很多关键特性:
- 基于依赖的“拓扑调度(Toplogical Scheduler)”及 MapReduce 规划——这是 cascading API 的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和 cascades 进行并发调用。此外,各种流的步骤被智能地转换成对应于 hadoop cluster 的 map-reduce 调用。
- 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。
- 脚本化——Cascading API 有针对 Jython、Groovy 和 JRuby 的脚本化接口——这使其适合于常见的动态 JVM 语言
有很多文档可用来学习 cascading API 的概念和实现。这儿有一篇 PDF 格式的介绍性概览,从高层展示了cascading API 的核心概念。还有一个“介绍性示例”展示了如何创建一个简单的Apache 日志解析器。最后,这儿还有一个完整的 Cascading API 的 Javadoc 文档。
查看英文原文: Cascading - Data Processing API for Hadoop MapReduce
活动推荐:
2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。
评论