写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006732
用户头像

发布了 43 篇内容, 共 29.2 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

Python OpenCV 之图像金字塔,高斯金字塔与拉普拉斯金字塔

梦想橡皮擦

7月日更

以产业区块链提升数字化转型质量

CECBC

10条让开发者受益终生的编码原则

Jackpop

Apache Flink 漫谈系列 —— 概述

云祁

flink 7月日更

性能框架哪家强—JMeter、K6、locust、FunTester横向对比

FunTester

性能测试 接口测试 测试框架 测试开发

领域驱动设计到底在讲什么?

escray

学习 极客时间 7月日更 如何落地业务建模

网络攻防学习笔记 Day71

穿过生命散发芬芳

网络攻防 7月日更

Hadoop 入门教程

若尘

大数据 hadoop

Redis - Cluster - 源码阅读(二)

旺仔大菜包

redis

京东智造云:在世界人工智能大会上,听到的工业智能生长的声音

脑极体

模块一作业

Always

架构实战营

你以为的你以为未必是你以为的

Bruce Talk

敏捷 随笔 Agile 引导和教练

Facebook工程经验--PCIe故障监控和修复

俞凡

架构 大厂实践

PowerShell 正则表达式

耳东@Erdong

PowerShell 7月日更

Go 学习笔记之 结构体

架构精进之路

Go 语言 7月日更

高性能架构

编号94530

Java 架构设计 高性能

Goroutine 是如何运行的

Rayjun

调度器 Go 语言

Javascript 的工作原理:引擎、运行时和调用堆栈概述

devpoint

JavaScript V8 7月日更

实时音视频技术全栈攻略|寻找C站宝藏

liuzhen007

音视频 7月日更

区块链+游戏资产所有权,将如何激活游戏经济的发展?

CECBC

智能重排序在推荐场景中的应用(三十四)

Databri_AI

推荐系统 排序 智能

【Flutter 专题】90 图解 Dart 单线程实现异步处理之 Future (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

性能测试框架对比初探

FunTester

性能测试 接口测试 测试框架 测试开发

市场总局禁止虎牙斗鱼合并:抵制互联网行业垄断行为

石头IT视角

7款神器,让程序员幸福感暴增!

Jackpop

一文掌握Java TreeMap与HashMap

Jackpop

模块八作业

Presley

架构实战训练营 - 模块八课后作业

Johnny

架构实战营

架构实战营 模块二作业

孫影

架构实战营 #架构实战营

密码你真的了解吗

卢卡多多

7月日更

🏆【CI/CD技术专题】「Maven插件Docker系列」使用Maven插件构建Docker镜像的方法

洛神灬殇

Docker maven 7月日更 Plugin

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章