QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

AWS 推出 Apache Airflow 全托管工作流 MWAA

  • 2020-12-09
  • 本文字数:1362 字

    阅读完需:约 4 分钟

AWS推出Apache Airflow全托管工作流MWAA

最近,AWS 推出了亚马逊Apache Airflow托管工作流(MWAA),这是一项全托管的服务,简化了在 AWS 上运行开源版 Apache Airflow 和构建工作流来执行 ETL 作业和数据管道的工作。


Apache Airflow 是一个开源工具,用于通过编程的方式开发、调度和监控被称为“工作流”的过程和任务序列。开发人员和数据工程师用 Apache Airflow 管理工作流,通过用户界面(UI)来监控它们,并通过一组强大的插件来扩展它们的功能。但是,要使用 Apache Airflow,需要进行手动安装、维护和扩展。现在,AWS 解决了这个问题,它为开发人员和数据工程师提供了 MWAA,让他们可以在云端构建和管理自己的工作流,无需关心与管理和扩展 Airflow 平台基础设施相关的问题。


在 AWS 有关 MWAA 的新闻稿中,负责应用集成的副总裁 Jesse Dougherty 说:


客户告诉我们,他们非常喜欢 Apache Airflow,因为它加快了数据处理和机器学习工作流的开发,但他们希望能够去掉扩展、运维和保护服务器方面的负担。通过使用 Amazon MWAA,客户可以使用与现在相同的 Apache Airflow 平台,同时获得由 AWS 提供的可伸缩性、可用性和安全性。


Amazon MWAA 可以使用Amazon Athena获取来自数据源(如Amazon Simple Storage Service)的输入,在Amazon EMR集群上执行转换,并使用生成的数据在Amazon SageMaker上训练机器学习模型。此外,开发人员和数据工程师可以使用 Python 在 Amazon MWAA 中编写有向无环图(DAG)工作流。



来源:https://aws.amazon.com/managed-workflows-for-apache-airflow/


AWS 首席布道师 Danilo Poccia 在 NWAA 的一篇介绍博文中写道:


你可以通过以下三个步骤来使用亚马逊 MWAA:

创建环境——每个环境都包含你的 Airflow 集群,包括调度器、工作程序和 Web 服务器。开发人员和数据工程师可以从控制台、AWS命令行接口(CLI)或AWS SDK创建新的 Amazon MWAA 环境。

上传 DAG 和插件到 S3——Amazon MWAA 自动将代码加载到 Airflow 中。

在 Airflow 中运行 DAG——从 Airflow UI 或命令行(CLI)运行 DAG,并使用 CloudWatch 监控环境。


有了 MWAA,开发人员和数据工程师可以通过插件获得开放可扩展性所带来的好处,他们可以创建与工作流所需的 AWS 或内部资源发生交互的任务,包括 AWS Batch、Amazon CloudWatch、Amazon DynamoDB、AWS Lambda、Amazon Redshift、Amazon Simple Queue Service (SQS)和 Amazon Simple Notification Service(SNS)。


需要注意的是,AWS 还有其他工作流管理系统,比如Step FunctionsAWS Glue。Hacker News 上的一位受访者在一篇帖子中解释说:


它是由内部的 Orchestration 团队开发的——这个团队也开发了 Step Functions,并维护着AWS Simple Workflow。我认为 Glue 与其他的工作流系统不一样——它针对 ETL 进行了深度优化。我相信,随着时间的推移,会出现更多有关 Step Functions 和 Apache Airflow 的详细指南,不过简单地说,Step Functions 是完全 AWS 原生的(并且是无服务器的)编配引擎。当然,Apache Airflow 是一个开源的项目,它拥有一个由其他插件组成的多样化生态系统。


MWAA 目前可在下列 AWS 区域使用:美国东部(俄亥俄州和弗吉尼亚州)、美国西部(俄勒冈州)、欧盟(斯德哥尔摩、爱尔兰和法兰克福)和亚太地区(东京、新加坡和悉尼),其他更多地区将会陆续可用。此外,有关服务的详细信息可以在文档页面上获得,有关价格的详细信息可以在定价页面上获得。


原文链接


AWS Introduces Amazon Managed Workflows for Apache Airflow


2020-12-09 16:003851

评论

发布
暂无评论
发现更多内容

一文吃透Arthas常用命令!

程序员大彬

Java JVM

华为运动健康服务Health Kit 6.10.0版本新增功能速览!

HarmonyOS SDK

HMS Core

Redis一主二从环境搭建

京茶吉鹿

nosql redis

流程图哪个软件好用?10款好用的流程图软件推荐:boardmix、Visio、Miro…

彭宏豪95

效率工具 职场 工具 流程图 在线白板

AI时代要用俄罗斯套娃思考模式

FN0

AIGC

为了减少延迟和卡顿,我对 MySQL 查询做了这些优化处理...

Java你猿哥

MySQL sql ssm MySQL优化 优化SQL

“程序员”即将失业 | 社区征文

六月的雨在InfoQ

程序员 ChatGPT GPT-4 三周年征文

Java概述与基础知识

timerring

Java

Kubernetes 本地持久化存储方案 OpenEBS LocalPV 落地实践上——使用篇

江湖十年

k8s 后端 #Kubernetes# Go 语言

如何高效清洗数据?试试这款神器

博文视点Broadview

四川农信:与先进科技融合,更好服务广大用户|客户之声

OceanBase 数据库

数据库 oceanbase

AI日课@20230409:对话式用户界面

无人之路

ChatGPT

DevOps infra | 互联网、软件公司基础设施建设(基建)哪家强?

laofo

DevOps 研发效能 持续交付 infra 平台工程

这份Java面试八股文让329人成功进入大厂,堪称2023最强

Java你猿哥

Java 面试 面经 春招 Java八股文

ChatGPT会在三年内终结编程吗?| 社区征文

芯动大师

程序员 ChatGPT 三周年征文

包装了三年工作经验的我,被同事发现居然连这些Maven的操作都不懂

Java你猿哥

maven ssm 架构师 Java工程师

JetCache 缓存开源组件设计精要

阿里技术

缓存 JetCache

浏览器缓存清理:Cookie for Mac6.9.0激活版

真大的脸盆

Mac Mac 软件 缓存清理 清理缓存 缓存处理工具

NCCL源码解析②:Bootstrap网络连接的建立

OneFlow

人工智能 深度学习

成立数科公司之余,央国企推进数智化转型还需要底座支撑

用友BIP

五面阿里巴巴拿offer后定级P6:分享Java面经及答案总结

Java你猿哥

Java 面试 面经 春招 Java八股文

技术同学如何做好向上管理

老张

职场新人 向上管理

线上问题排查异闻录

小小怪下士

Java 程序员 后端 堆内存管理

前端工程化实战:React 的模块化开发、性能优化和组件化实践

兴科Sinco

性能优化 前端工程化 React Native 前端模块化 组件化开发

“成本刺客”防不胜防,如何应用亚马逊云科技驾驭云成本

Lily

MySQL自增ID用完了怎么办?4种解决方案!

Java你猿哥

Java MySQL sql 后端 ssm

Spring 之依赖注入底层原理

Java你猿哥

spring ssm 架构师 Java工程师 spring ioc

iOS SKAN 4.0 时代的广告追踪优化:掌握隐私友好的营销策略

37手游iOS技术运营团队

SKAdNetwork SKAN IDFA ATT App Tracking Trans

【分布式技术专题】「单点登录技术架构」一文带领你好好认识以下Saml协议的运作机制和流程模式

码界西柚

分布式 SAML SSO 单点登录

潮起风来,政企DICT “跃升”之乘风破浪篇

鲸品堂

DT IT 企业号 4 月 PK 榜 ct

火了!阿里资深架构师总结的春招Java岗核心笔记,GitHub标星20k

Java你猿哥

Java ssm 面经 Java工程师 java核心知识

AWS推出Apache Airflow全托管工作流MWAA_服务革新_Steef-Jan Wiggers_InfoQ精选文章