写点什么

Flink 基础教程(二):初探 Flink

  • 2020-03-27
  • 本文字数:2060 字

    阅读完需:约 7 分钟

Flink基础教程(二):初探Flink

编者按:本文节选自图灵程序设计丛书 《Flink 基础教程》一书中的部分章节。


Flink 的主页 1 在其顶部展示了该项目的理念:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。”Flink 不仅能提供同时支持高吞吐和 exactly-once 语义的实时计算,还能提供批量数据处理,这让许多人感到吃惊。鱼与熊掌并非不可兼得,Flink 用同一种技术实现了两种功能。


1 http://flink.apache.org


这个顶级的 Apache 项目是怎么诞生的呢?Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目。当时,这个项目已经吸引了一个较大的社区,一部分原因是它出现在了若干公共开发者研讨会上,比如在柏林举办的 Berlin Buzzwords,以及在科隆举办的 NoSQL Matters,等等。强大的社区基础是这个项目适合在 Apache 软件基金会中孵化的一个原因。


2014 年 4 月,Stratosphere 的代码被复制并捐献给了 Apache 软件基金会,参与这个孵化项目的初始成员均是 Stratosphere 系统的核心开发人员。不久之后,创始团队中的许多成员离开大学并创办了一个公司来实现 Flink 的商业化,他们为这个公司取名为 data Artisans。在孵化期间,为了避免与另一个不相关的项目重名,项目的名称也发生了改变。Flink 这个名字被挑选出来,以彰显这种流处理器的独特性:在德语中,flink 一词表示快速和灵巧。项目采用一只松鼠的彩色图案作为 logo,这不仅因为松鼠具有快速和灵巧的特点,还因为柏林的松鼠有一种迷人的红棕色。



图 1:左侧:柏林的红松鼠拥有可爱的耳朵;右侧:Flink 的松鼠 logo 拥有可爱的尾巴,尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应。这是一只 Apache 风格的松鼠!


这个项目很快完成了孵化,并在 2014 年 12 月一跃成为 Apache 软件基金会的顶级项目。作为 Apache 软件基金会的 5 个最大的大数据项目之一,Flink 在全球范围内拥有 200 多位开发人员,以及若干公司中的诸多上线场景,有些甚至是世界 500 强的公司。在作者撰写本书的时候,共有 34 个 Flink 线下聚会在世界各地举办,社区大约有 12 000 名成员,还有众多 Flink 演讲者参与到各种大数据研讨会中。2015 年 10 月,第一届 Flink Forward 研讨会在柏林举行。

批处理与流处理

Flink 是如何同时实现批处理与流处理的呢?答案是,Flink 将批处理(即处理有限的静态数据)视作一种特殊的流处理。


Flink 的核心计算构造是图 2 中的 Flink Runtime 执行引擎,它是一个分布式系统,能够接受数据流程序并在一台或多台机器上以容错方式执行。Flink Runtime 执行引擎可以作为 YARN(Yet Another Resource Negotiator)的应用程序在集群上运行,也可以在 Mesos 集群上运行,还可以在单机上运行(这对于调试 Flink 应用程序来说非常有用)。



图 2:Flink 技术栈的核心组成部分。值得一提的是,Flink 分别提供了面向流处理的接口(DataStream API)和面向批处理的接口(DataSet API)。因此,Flink 既可以完成流处理,也可以完成批处理。Flink 支持的拓展库涉及机器学习(FlinkML)、复杂事件处理(CEP),以及图计算(Gelly),还有分别针对流处理和批处理的 Table API


能被 Flink Runtime 执行引擎接受的程序很强大,但是这样的程序有着冗长的代码,编写起来也很费力。基于这个原因,Flink 提供了封装在 Runtime 执行引擎之上的 API,以帮助用户更方便地生成流式计算程序。Flink 提供了用于流处理的 DataStream API 和用于批处理的 DataSet API。值得注意的是,尽管 Flink Runtime 执行引擎是基于流处理的,但是 DataSet API 先于 DataStream API 被开发出来,这是因为工业界对无限流处理的需求在 Flink 诞生之初并不大。


DataStream API 可以流畅地分析无限数据流,并且可以用 Java 或者 Scala 来实现。开发人员需要基于一个叫 DataStream 的数据结构来开发,这个数据结构用于表示永不停止的分布式数据流。


Flink 的分布式特点体现在它能够在成百上千台机器上运行,它将大型的计算任务分成许多小的部分,每个机器执行一个部分。Flink 能够自动地确保在发生机器故障或者其他错误时计算能持续进行,或者在修复 bug 或进行版本升级后有计划地再执行一次。这种能力使得开发人员不需要担心失败。Flink 本质上使用容错性数据流,这使得开发人员可以分析持续生成且永远不结束的数据(即流处理)。


Flink 解决了许多问题,比如保证了 exactly-once 语义和基于事件时间的数据窗口。开发人员不再需要在应用层解决相关问题,这大大地降低了出现 bug 的概率。


因为不用再在编写应用程序代码时考虑如何解决问题,所以工程师的时间得以充分利用,整个团队也因此受益。好处并不局限于缩短开发时间,随着灵活性的增加,团队整体的开发质量得到了提高,运维工作也变得更容易、更高效。Flink 让应用程序在生产环境中获得良好的性能。尽管相对较新,但是 Flink 已经在生产环境中得到了应用,下一节将做更详细的介绍。


图书简介https://www.ituring.com.cn/book/2036



相关阅读


Flink基础教程(一):流处理技术的演变


2020-03-27 10:002558

评论

发布
暂无评论
发现更多内容

客户为纲,万目皆张——中烟创新致烟草客户的一封信

中烟创新

BOE(京东方)携手生态伙伴推出公益微电影 见证“照亮成长路”十年科技赋能教育之路

爱极客侠

快手DHPS:国内首个实现基于RDMA 通信的可负载均衡高性能服务架构!

快手技术

高性能 服务架构 快手 RDMA技术

李沐团队开源音频模型 Higgs Audio V2,基于千万小时数据训练;生数科技发布长时文生音频系统 FreeAudio丨日报

声网

2025年4月补丁星期二安全更新全景

qife122

网络安全 漏洞修复

唯一中资厂商!腾讯云连续三年入选 Gartner® CPaaS 魔力象限“挑战者”,AI 实践与国际化布局成效显著

极客天地

事件响应中的开源情报技术(第二部分)

qife122

网络安全 OSINT

JNPF组织权限,让企业权限体系更清晰高效​

引迈信息

bsfgo 一个轻量级的go web框架

车江毅

拯救重复劳动:无代码实现 Markdown 图&表抽取

数由科技

人工智能 markdown 数据科学 ETL 无代码

Golang基础笔记十四之文件操作

Hunter熊

golang 后端 文件写入 文件读取

错误但快速的云基础设施配置方式 - 安全风险警示

qife122

云计算 AI风险

黑龙江等保测评周期调整:2025年新规对二级系统的影响

等保测评

6 款支持角色权限控制(RBAC)的开发工具对比与应用场景解析

NocoBase

开源 权限管理 rbac 身份管理 角色管理

90%企业误解的低代码真相,已经不单纯了

秃头小帅oi

零踩坑!Figma组件库无损迁移全流程图解(2025版)

职场工具箱

效率工具 产品经理 产品设计 figma ui设计

从部署到告警,全流程运维只需 taosExplorer 一个界面

TDengine

tdengine 时序数据库 国产时序数据库

2025中国楼宇对讲十大品牌权威排名与分析

新消费日报

亚太企业AI应用现状---- 理想丰满、现实骨感

财见

观安信息新一代政务数据共享交换平台

极客天地

焱融科技携手信通院、青云科技启动“AI推理高性能存储技术推进计划”

焱融科技

人工智能 大模型推理 焱融存储 KVCache

《开源鸿蒙共建地图4.0》发布 加速构建面向万物互联的操作系统能力

最新动态

开源鸿蒙走进地方开源生态建设交流会:政企办公应用落地牵引开源创新

最新动态

2025年6月补丁星期二:微软修复67个漏洞,包含2个零日漏洞

qife122

漏洞管理 Windows安全

黑龙江等保测评周期优化:三级系统的年检与动态管理

等保测评

多语种AI舆情监测的关键技术与挑战

沃观Wovision

NLP 大模型 海外舆情 AI 大模型 沃观Wovision 舆情监测系统

Promtail 对接日志最佳实践

观测云

日志分析

BOE(京东方)携多领域商显解决方案亮相InfoComm Asia 2025 “科技+绿色”引领万物互联新时代

爱极客侠

a16z Crypto 领投 1500 万美元种子轮投资,押注去中心化 AI 数据层

PowerVerse

云服务卓越架构能力成熟度模型标准发布,腾讯云顾问率先落地

科技热闻

发布即颠覆?实测smardaten 2.0 :当 AI 遇上无代码软件开发,真的能重新定义 “对话即开发”

程序员洲洲

Flink基础教程(二):初探Flink_语言 & 开发_科斯塔斯•宙马斯_InfoQ精选文章