速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Apache Flink 实现的数据流体系结构

  • 2016-06-12
  • 本文字数:804 字

    阅读完需:约 3 分钟

data Artisans 应用程序工程总监 Jamie Grier 最近在 OSCON 2016 Conference 大会发言谈到了使用 Apache Flink 构建的一种数据流体系结构。同时还谈到了数据流应用程序的构建块。

数据流体系结构可用于处理随着时间流逝以事件流方式持续生成的数据,这一点不同于传统的静态数据集。相对于传统的集中式“状态化”数据库和数据仓库,数据流应用程序可以处理事件流以及针对历史事件汇总而来的应用程序本地状态。流式数据处理的一些优势包括:

  • 降低从信号到决策的过程延迟
  • 通过统一的方式处理实时和历史数据
  • Time travel 查询

Apache Flink 是一种开源的分布式流化和批量化数据处理平台。Flink 的诞生受到了 Google Data Flow 模型的启发,可支持 Java 和 Scala 语言开发的 Stream Processing API。相比其他流式数据处理框架,Flink 中不存在微批量(Micro batching)数据,而是使用了一种“一次一条消息”的流处理技术。

Jamie 介绍了状态流处理并展示了 Flink 应用程序的代码范例,以及使用开源时序数据库和 Graphana 可视化工具 Influxdb 进行监控的方法。

同时他还介绍了流处理过程中窗口(Windowing)的概念以及处理时间(Processing Time)和事件时间(Event Time)的窗口概念。处理时间的窗口会对流数据的分析产生影响,并会导致数据处理过程中出现某些错误。在事件时间方法中,窗口来自于数据,而非时钟时间。对于事件时间,可通过数据嵌入的时间戳对数据进行处理,这样即可获得更精确的结果。

Jamie 还介绍了在应用程序中使用 Flink 时的错误处理和容错机制。Flink 中的 Savepoints 功能可在不丢失任何状态的情况下对程序和 Flink 集群进行更新。如果要对实时数据进行流处理,此时 Savepoints 数据快照会显得非常重要。

如果你想详细了解 Apache Flink,可访问他们的网站。此外 Flink Forward 2016 Conference 活动将于九月在柏林召开,提交提案的截止日期为2016 年6 月30 日。

查看英文原文 Data Streaming Architecture with Apache Flink

2016-06-12 19:002703
用户头像

发布了 283 篇内容, 共 107.5 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

QA视角看数据匿名化

BY林子

数据安全 测试右移 用户数据 数据脱敏

Vim,人类史上最好用的文本编辑器

沉默王二

vim 开发工具 vim教程

第四章作业(二)

LouisN

2021最新京东、字节跳动「3面面经」盘点大厂后端面试高频题

Java架构之路

Java 程序员 架构 面试 编程语言

山东青岛推进平安小区建设!源中瑞智慧社区平台解决方案

源中瑞-龙先生

解决方案 山东 源中瑞 青岛 智慧社区

Kubernetes 稳定性保障手册 -- 极简版

阿里巴巴云原生

云计算 容器 开发者 云原生 k8s

Serverless 如何在阿里巴巴实现规模化落地?

阿里巴巴云原生

阿里巴巴 Serverless 容器 微服务 云原生

从0到1建立软件测试质量体系

程序员阿沐

软件测试 测试工程师 质量保证

2021备战金三银四血拼一波算法:字节+百度+美团+网易+拼夕夕+腾讯+滴滴

比伯

Java 编程 程序员 架构 面试

LeetCode题解:123. 买卖股票的最佳时机 III,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Git学习游戏化,从Learn Git Branching 开始

程序老王

git 学习 学习方法 git 学习

浅谈基于ARP协议的网络攻击

行者AI

网络安全

智慧党建管理系统,智慧组工平台开发方案

13530558032

国产芯片WiFi物联网智能插座—电耗采集功能设计

不脱发的程序猿

28天写作 国产芯片 电耗检测 电压电流 华大MCU

技术解析 | Doris Compaction机制解析

百度开发者中心

百度 apache doris

887页Java面试“成神”手册,已助朋友狂砍9个一二线大厂Offer

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

Pgbouncer最佳实践:系列一

PostgreSQLChina

数据库 postgresql 软件 开源社区

#集赞送好礼#百度大脑AI开放平台的2020年

百度大脑

使用 pyVmomi 采集 vSphere 监控指标

冯骐

Python 运维 监控 Open-Falcon vpshere

程序员之禅(一)

每天读本书

读书笔记

技术案例 | 云原生微服务落地难?百度自用CRM这样做

百度开发者中心

微服务 CRM #百度智能云#

算力挖矿系统开发|算力挖矿软件APP开发

系统开发

OS命令--shell中数组的操作

cloudcoder

数组 Shell 循环引用

【LeetCode】区域和检索 - 数组不可变Java题解

Albert

算法 LeetCode 28天写作

程序员成长第十七篇:项目转测

石云升

项目管理 程序员 28天写作 3月日更

四面美团开发岗,成功斩获offer,分享个人面经

Java架构之路

Java 程序员 架构 面试 编程语言

EEPROM CAT24CXX实现分页读、写数据

不脱发的程序猿

28天写作 CAT24C08 EEPROM 嵌入式软件 单片机

接口测试--apipost中cookie管理器的使用

测试人生路

接口 Cookie

区块链农产品溯源平台,农产品区块链防伪

13530558032

极限编程技术实践

Teobler

敏捷 敏捷开发 TDD 重构 极限编程

从0到1建立数据分析指标体系底层逻辑

小飞象@木木自由

数据分析 数据指标 数据分析体系

Apache Flink实现的数据流体系结构_语言 & 开发_Srini Penchikala_InfoQ精选文章