速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006653
用户头像

发布了 43 篇内容, 共 28.7 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第二周学习总结

尹斌

RN运行项目报错:Unable to resolve module `./debugger-ui/debuggerWorker.js` from ``

凌宇之蓝

ios android React Native

上班路上也是一道美景

xcbeyond

生活 摄影 摄影征文

自己动手写SQL执行引擎

无毁的湖光

Java MySQL 数据库 Linux 算法

项目实战,动态增删form表单

麦洛

jquery 克隆

架构师训练营第 1 期第 2周作业

owl

极客大学架构师训练营

MySQL varchar类型最大值,原来一直都理解错了

架构精进之路

MySQL varchar

什么才是“应用拓扑”?

小清新同学

运维 监控

如何快速制造OOM

Since

JVM OOM

三步带你开发一个短链接生成平台

葡萄城技术团队

Java SpreadJS Node

监控应用,应该监控什么?

小清新同学

云计算 运维 监控

2B还是2C,这真是个问题

MavenTalker

SaaS

架构师训练营第 1 期第二周课后练习题

Leo乐

极客大学架构师训练营

不一样的面向对象(二)

书旅

php 面向对象

高难度对话读书笔记—认知篇2

wo是一棵草

如何设计Go语言中的channel

soolaugust

channel goroutines Go 语言

Go中的HTTP请求之——HTTP1.1请求流程分析

Gopher指北

HTTP Go web Go 语言

保留时序数据波动细节的一种采样算法

小清新同学

监控 时序数据库

难得干货,揭秘支付宝的2维码扫码技术优化实践之路

JackJiang

支付宝

刷爆朋友圈的字节跳动编码题,今天把解析思路分享下!

Java架构师迁哥

架构师训练营第 1 期第 2 周学习总结

owl

极客大学架构师训练营

架构师训练营第 2 周作业

netspecial

极客大学架构师训练营

缓存解决方案-技术专题-Caffeine Cache

洛神灬殇

Dolphinscheduler系统架构设计

dll

Apache DolphinScheduler

架构师训练营第二周作业

尹斌

程序执行太慢?快来学习SIMD加速技术,这个案例下的加速效果我也没想到(附带动手实验)

Optimize-Lab

优化代码 优化技巧 开源社区 simd Go 语言

java安全编码指南之:可见性和原子性

程序那些事

Java java安全编码 java编码指南 java安全编码指南

收藏+下载!Flink 社区最全学习渠道汇总

Apache Flink

flink

关于Java 编译Servlet或者自定义Tag,引入包的问题

谷鱼

Java

Python 自动化测试全攻略:五种自动化测试模型实战详解

葡萄城技术团队

自动化测试

从大数据的角度来谈谈运维监控这件事儿

小清新同学

运维 监控

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章