开源新闻:
- 《 AirFlow 加入 Apache 孵化器》
AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。 - 《 Apache Apex 成为 Apache 顶级项目》
Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。 - 《 Apache Beam 将统一大数据平台的开发》
Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。 - 《开源项目:Spark 分布式训练深度神经网络》
用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。
实践:
- 《基于 Storm 和 Morphlines 一体化实现实时清洗》
使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。 - 《 Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。 - 《 Qsquery 支持 Syslog 和 Amazon Kinesis 》
Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。
感谢杜小芳对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论