写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006632
用户头像

发布了 43 篇内容, 共 28.5 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

Go 并发模式:管道和取消(译)

en

Go

技术盘点:消息中间件的过去、现在和未来

阿里巴巴云原生

阿里云 云原生 中间件 消息队列 EventBridge

战略规划和战略解码BLM+BEM

wood

bem 战略制定 300天创作 BLM

DDD实战(1):从需求到代码实现生鲜电商系统

深清秋

DDD 软件架构 生鲜电商系统

学生管理系统的架构设计

Fingal

#架构实战营

Linux系统问题排查

AiDaddy

Linux 负载 系统问题

技术盘点:容器技术的演进路线是什么?未来有哪些想象空间?

阿里巴巴云原生

阿里云 容器 云原生

KubeVela v1.2 发布:你要的图形化操作控制台 VelaUX 终于来了!

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

深入理解持续测试:DevOps 流程中的重要一环

SoFlu软件机器人

前端培训:Vue3语法糖详解分享

@零度

Vue 前端开发

架构训练营 毕业设计

ren

DOM 精通了?请问 Node 和 Element 有何区别?

编程三昧

JavaScript 前端 DOM 2月月更

外屏和宽屏浪费了?HarmonyOS折叠屏设计规范教你用起来

HarmonyOS开发者

HarmonyOS

AIGC的“含科量”与“含资量”

脑极体

“元认知”相关学习总结

panda

思维模型 阅读笔记 元认知

大画 Spark :: 网络(4)-Endpoint注册使用与网络环境的构建

dclar

大数据 spark 源代码 框架原理

基于CC2530(ZigBee)设计的自动照明系统

DS小龙哥

2月月更 自动照明系统设计

福昕鲲鹏加入,龙蜥社区迎来版式文档技术服务新伙伴

OpenAnolis小助手

Linux 开源 社区 福昕

多图|一文详解Nacos参数!

王磊

nacos

怎么说服领导,能让我用DDD架构肝项目?

小傅哥

DDD 小傅哥 技术架构 架构实践

一文带你了解 Java 的内存区域

宇宙之一粟

Java 内存 2月月更

2022年每个开发者必知的云原生趋势 | 社区征文

Geek_rze78a

容器 微服务 云原生 新春征文

大数据培训:构建Flink SQL流式计算平台

@零度

flink sql 大数据开发

vivo 服务端监控架构设计与实践

vivo互联网技术

服务端 系统监控 构架

移动应用中的第三方SDK隐私合规检测,早知道

华为云开发者联盟

移动应用 安全 sdk 隐私 隐私合规

注册中心

邱学喆

Eureka 注册中心 原理图

技术盘点:云原生中间件的技术演进与未来趋势展望

阿里巴巴云原生

阿里云 云原生 中间件 趋势

AI赋能安全技术总结与展望| 社区征文

herosunly

人工智能 新春征文 2月月更

改革开放启示录(14/100)

hackstoic

创新管理

阿里无影云桌面深度测评

乌龟哥哥

无影云电脑 2月月更

了解一下ProtoBuf

蜜糖的代码注释

protobuf 2月月更

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章