写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006622
用户头像

发布了 43 篇内容, 共 28.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

性能测试公开课来啦!从性能测试方案到性能调优,从负载均衡到中间件测试,全方位讲解性能测试核心内容

测吧(北京)科技有限公司

测试

以“好运”潮饰 “牵”情绪共鸣 老庙一串好运系列与消费者展开情绪对话

科技大数据

官答丨操作系统升级 Openssl 导致 GreatSQL 无法启动

GreatSQL

数据库 greatsql

ICE构建坚不可摧的交易环境

科技热闻

11年之约 聚焦上海 | 亚信科技邀您相约2024 MWC上海展

亚信AntDB数据库

AntDB MWC 企业号 6 月 PK 榜 亚信安慧antdb

低代码平台如何重塑项目管理:效率与创新的新边界

天津汇柏科技有限公司

项目管理 低代码

合成数据:解锁通用人工智能的“关键之钥”?

Baihai IDP

AI 合成数据 LLMs 企业号 6 月 PK 榜

业务和技术,哪个更重要?

老张

技术 业务

时延降低 50%,小红书图数据库如何实现多跳查询性能大幅提升

小红书技术REDtech

分布式 查询 图数据库 图数据库实战 并行查询

接口测试:Mock 技术体系

测试人

软件测试

引领产业创新,河套国际性产业与标准组织聚集区亮相2024MWC上海

最新动态

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS Dell (戴尔) 定制版

sysin

macos esxi OEM BIOS dell

ICE构建坚不可摧的交易环境

科技汇

SaaS 出海:Databend Cloud 的定位与实践

Databend

信创生态+1!天谋科技与百信完成兼容性互认证

Apache IoTDB

基于Python和TensorFlow实现BERT模型应用

华为云开发者联盟

人工智能 深度学习 华为云 华为云开发者联盟 企业号2024年6月PK榜

性能测试公开课来啦!从性能测试方案到性能调优,从负载均衡到中间件测试,全方位讲解性能测试核心内容

测试人

软件测试

PHP中常用的设计模式

左诗右码

php

白熊AI推出两款大模型应用产品:一站式智能体开发,十万节点0.9秒响应;0门槛、低代码,全流程自动化大模型训练平台

白熊AI

白熊AI 大模型训练平台 RAG知识库 Agent智能体 Workflow工作流

小窗口大魔力,实况窗服务实时掌控重要信息变化

HarmonyOS SDK

HarmonyOS

聊聊性能指标CPU利用率如何计算的

派大星

性能指标

信创好搭档,企业好选择| 亚信安慧AntDB诚邀您参与企业数智化升级云端研讨会

亚信AntDB数据库

数据库 AntDB 信创产业 企业号 6 月 PK 榜 亚信安慧antdb

GeminiDB全面联动MySQL:热点数据,一键加速

华为云开发者联盟

MySQL 数据库 华为云 华为云开发者联盟 企业号2024年6月PK榜

Unity 确认参展 2024 ChinaJoy BTOB,展示应用出海增长全链路解决方案

Geek_2d6073

PHP 之道笔记整理:最佳实践与安全指南

左诗右码

php

ToDesk优惠码是什么,如何使用?

小喵子

远程 远程桌面 远程工具

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章