速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

新的 Dataproc 可选组件支持 Apache Flink 和 Docker

Roderick Yao

  • 2020-11-03
  • 本文字数:2445 字

    阅读完需:约 8 分钟

新的 Dataproc 可选组件支持 Apache Flink 和 Docker

Google Cloud 的 Dataproc 让您能够以更简便、更经济的方式来基于 Google Cloud 运行原生 Apache Spark 和 Hadoop 集群。在本文中,我们将介绍在 Dataproc 的 Component Exchange 中提供的最新可选组件:Docker 和 Apache Flink。

Dataproc 中的 Docker 容器

Docker 是一种广泛使用的容器技术。由于它现在是 Dataproc 可选组件,Docker 守护进程 (daemon) 现在可被安装到 Dataproc 集群的每个节点。这将使您能够安装容器化应用程序,并且在集群中轻松地与 Hadoop 集群交互。


此外,Docker 对于支持以下这些功能也至关重要:


1.通过 YARN 运行容器


2.可移植 Apache Beam 作业


在 YARN 中运行容器使您能够单独管理您的 YARN 应用程序的依赖性,并且允许您在 YARN 中创建容器化的服务。可移植 Apache Beam 将作业打包到 Docker 容器,并将其提交至 Flink 集群。了解有关 Beam 可移植性的更多信息


除了默认的 Docker registry,还可对 Docker 可选组件进行配置以使用 Google Container Registry。这使您能够使用由您的组织管理的容器镜像。


以下是利用 Docker 可选组件创建 Dataproc 集群的示例:


gcloud beta dataproc clusters create <cluster-name> \  --optional-components=DOCKER \  --image-version=1.5
复制代码


当您运行 Docker 应用程序时,使用 gcplogs 驱动程序,日志将被传至 Cloud Logging。


如果您的应用程序不依赖任何 Hadoop 服务,核实 Kubernetes 和 Google Kubernetes Engine 是否以原生方式运行容器。要了解有关 Dataproc 使用的更多信息,请参阅我们的相关文档

基于 Dataproc 的 Apache Flink

在流分析技术中,Apache Beam 和 Apache Flink 更加出色。Apache Flink 是一个基于有状态计算的分布式处理引擎。Apache Beam 是定义批处理和流处理管道的统一模式。使用 Apache Flink 作为扩展引擎,除了 Google 的 Cloud Dataflow 服务,您还可以在 Dataproc 中运行 Apache Beam 作业。


Flink 以及在 Flink 中运行 Beam 适合大规模连续作业,可提供:


  • 支持批处理和数据流程序的流优先运行环境

  • 同时支持非常高的吞吐量和低事件延迟的运行环境

  • 具有精确单次处理保证的容错

  • 流程序中的自然背压 (back-pressure)

  • 自定义内存管理以实现在内存和核外数据处理算法之间高效、稳健的切换

  • 与 YARN 以及 Apache Hadoop 生态系统的其他组件集成


Google Cloud 的 Dataproc 团队最近宣布 Flink Operator on Kubernetes 现已可用。它允许您在 Kubernetes 中运行 Apache Flink 作业,具有减少平台依赖性和产生更好的硬件效率的优势。


基本 Flink 概念


Flink 集群包括 Flink JobManager 以及一组 Flink TaskManager。与 YARN 之类的其他分布式系统中的类似角色相似,JobManager 的“责任”包括接受作业、管理资源以及监控作业等。TaskManager 负责运行实际任务。


在 Dataproc 中运行 Flink 作业时,我们将 YARN 用作 Flink 的资源管理器。您可以以两种方式运行 Flink 作业:作业集群和会话集群。对于作业集群,YARN 将为作业创建 JobManager 和 TaskManagers,并且将在作业完成时销毁集群。对于会话集群,YARN 将创建 JobManager 和几个 TaskManager。集群可服务多个作业直至被用户关闭。


如何利用 Flink 创建集群


使用以下命令作为开始:


gcloud beta dataproc clusters create <cluster-name> \  --optional-components=FLINK \  --image-version=1.5
复制代码


如何运行 Flink 作业


在带有 Flink 的 Dataproc 集群启动后,您可以使用 Flink 作业集群直接将您的 Flink 作业提交至 YARN。接受作业后,Flink 将在 YARN 中为此作业启动 JobManager 和任务槽。Flink 作业将在 YARN 集群中运行,直至完成。然后,将关闭所创建的 JobManager。作业日志将在常规 YARN 日志中提供。尝试此命令以运行一个字数统计示例:


  HADOOP_CLASSPATH=`hadoop classpath` flink run -m yarn-cluster /usr/lib/flink/examples/batch/WordCount.jar
复制代码


默认情况下,Dataproc 集群将不启动 Flink 会话集群。相反,Dataproc 将创建脚本“/usr/bin/flink-yarn-daemon”,该脚本将启动 Flink 会话。


如果您要在 Dataproc 创建时启动 Flink 会话,使用 metadata 关键词来允许启动:


  gcloud dataproc clusters create <cluster-name> \  --optional-components=FLINK \   --image-version=1.5 \  --metadata flink-start-yarn-session=true
复制代码


如果您要在 Dataproc 创建后启动 Flink 会话,可在主节点运行下列命令:


  $ . /usr/bin/flink-yarn-daemon
复制代码


向该会话集群提交作业。您需要获得 Flink JobManager URL:


  HADOOP_CLASSPATH=`hadoop classpath` flink run -m <JOB_MANAGER_HOSTNAME>:<REST_API_PORT> /usr/lib/flink/examples/batch/WordCount.jar
复制代码


如何运行 Java Beam 作业


运行以 Java 编写的 Apache Beam 作业非常简单。无需额外的配置。只要您将 Beam 作业打包为 JAR 文件,不需要进行任何配置即可在 Flink 中运行 Beam。以下是您可以使用的命令:


 $ mvn package -Pflink-runner$ bin/flink run -c org.apache.beam.examples.WordCount /path/to/your.jar--runner=FlinkRunner --other-parameters
复制代码


如何运行以 Python 编写的 Python Beam 作业


以 Python 编写的 Beam 作业使用不同的执行模式。要基于 Dataproc 在 Flink 中运行它们,您还需要启用 Docker 可选组件。以下是创建集群的示例:


  gcloud dataproc clusters create <cluster-name> \  --optional-components=FLINK,DOCKER
复制代码


您还需要安装 Beam 所必需的 Python 库,例如,apache_beam 和 apache_beam[gcp]。您可以传递一个 Flink 主 URL,让它在会话集群中运行。如果您未传递 URL,需要使用作业集群模式来运行此作业:


  import apache_beam as beamfrom apache_beam.options.pipeline_options import PipelineOptionsoptions = PipelineOptions([  "--runner=FlinkRunner",  "--flink_version=1.9",  "--flink_master=localhost:8081",  "--environment_type=DOCKER"])with beam.Pipeline(options=options) as p:  ...
复制代码


编写 Python 作业后,只需运行它以提交:


  $ python wordcount.py
复制代码


2020-11-03 14:10870

评论

发布
暂无评论
发现更多内容

互联网工程师1480道Java面试题及答案整理( 2023年 整理版)

Java你猿哥

Java 面试 面经 春招 Java八股文

如何使用责任链默认优雅地进行参数校验?

做梦都在改BUG

视频下载出来为网页格式?如何将视频转换为mp4格式?

Rose

视频格式转换 Mac视频格式转换 视频下载出来为网页

阿里P7架构师的独家分享——SpringCloud 微服务实战笔记

Java你猿哥

Java 架构 微服务 Spring Boot 面经

GitHub上架即巅峰!《Spring Cloud微服务架构实战》标星已超30k

做梦都在改BUG

Java 架构 微服务 Spring Cloud

火山引擎DataTester推出可视化数据集成方案

字节跳动数据平台

数据集成 ab测试 A/B 测试 可视化开发 企业号 3 月 PK 榜

吐血整理!互联网大厂最常见的1120道Java面试题(带答案)整理

架构师之道

Java 面试

Mac版cad2024发布 AutoCAD 2024 注册机

Rose

Mac软件 cad cad2024激活版 Autodesk AutoCAD

灵魂拷问:你写的SQL一般有几个JOIN ?​

Java你猿哥

Java sql 后端 ssm join

夜莺n9e监控配置支持电话短信报警

外滩运维专家

夜莺监控 电话报警 短信报警 夜莺监控电话

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

鳄鱼视界

无人机巡检场景小目标检测与量化加速部署方案详解

飞桨PaddlePaddle

人工智能 无人机 目标检测 飞桨 PaddlePaddle

SQL Chat - 基于 ChatGPT 的对话式交互 SQL 客户端

Bytebase

sql database ChatGPT

连接 AI,NebulaGraph Python ORM 项目 Carina 简化 Web 开发

NebulaGraph

Python ORM 图数据库

面试必问:JVM 如何确定死亡对象?

做梦都在改BUG

Java 面试 JVM

裸辞跳槽底气!字节在职大佬“Java面试总汇2023”大厂都在考

Java你猿哥

Java 面试 ssm 面经 Java工程师

mac电脑能恢复安卓手机丢失的数据吗?

Rose

mac电脑 安卓数据恢复

警惕看不见的重试机制:为什么使用RPC必须考虑幂等性

做梦都在改BUG

MobTech MobLink|场景分享的原理

MobTech袤博科技

解密COUNT(*)与COUNT(1):SQL查询你选哪个更高效?

Java你猿哥

Java sql 后端 ssm Java工程师

Github上获赞59.8K的面试神技—1658页《Java面试突击核心讲》

Java你猿哥

Java 架构 面试 面经 春招

Vue+Spring-Security前后端分离登录实现

做梦都在改BUG

苹果发布macOS Ventura 13.3正式版更新

Rose

mac系统 苹果最新系统 macOS Ventura 13.3

MobTech 秒验|防控羊毛党

MobTech袤博科技

DaVinci Resolve Studio 18(达芬奇调色剪辑)中文版

Rose

达芬奇18破解版

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

威廉META

聊聊不太符合常规思维的动态规划算法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

工作10年,面试超过300人想进阿里的同学,总结出的java面试69题

三十而立

Java java面试

玩转 ChatGPT+极狐GitLab|分分钟丝滑迁移Jenkins到极狐GitLab CI

极狐GitLab

ci DevOps jenkins CI/CD 极狐GitLab

龙蜥白皮书精选:面向异构计算的加速器 SDK

OpenAnolis小助手

开源 sdk 异构计算 加速器 龙蜥白皮书

开源即巅峰!《Java程序性能优化实战》GitHub三小时标星已超34k

做梦都在改BUG

Java 性能优化 性能调优

新的 Dataproc 可选组件支持 Apache Flink 和 Docker_文化 & 方法_InfoQ精选文章