Apache Flink是业界公认为最好的流计算引擎之一,其计算能力不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,用户只需根据业务逻辑开发一套代码,无论是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持。InfoQ希望通过本专题,让大家更全面地了解Apache Flink背后的技术,更加得心应手地使用Apache Flink。
本文首先从 Apache Flink 的定义、架构、基本原理入手,对大数据流计算相关的基本概念进行辨析,希望有助于大家厘清大数据流式处理引擎涉及的基本概念,能够更加得心应手地使用 Flink。
本文主要面向于初次接触 Flink 或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。
本文重点介绍 Flink 开发中比较核心的 DataStream API 。
本文主要讲解了 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式,有利于提高我们日常的开发和运维效率。
Apache Flink 是一个天然支持无限流数据处理的分布式计算框架,在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件。
主要内容包括:状态管理的基本概念;状态的类型与使用示例;容错机制与故障恢复。
什么是 Table API?怎么使用 Table API?
本文是 Apache Flink 零基础入门系列文章第八篇,将通过五个实例讲解 Flink SQL 的编程实践。
全面介绍 Flink Runtime 作业执行的核心机制
时间属性是流处理中最重要的一个方面,是流处理系统的基石之一。
本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制。
本文将从 Flink 架构、Flink on Yarn 原理及实践、Flink on Kubernetes 原理剖析三部分内容进行分享并对 Flink on Yarn/Kubernetes 中存在的部分问题进行了解答。
本文主要从如何为 Flink 量身定制的序列化框架、Flink 序列化的最佳实践、Flink 通信层的序列化以及问答环节四部分展开。
本文将从两个方面进行分享:一是如何从 Program 到物理执行计划,二是生成物理执行计划后该如何调度和执行。
本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、OPPO 大数据平台研发负责人张俊老师分享。
本文对两大问题进行了详细的介绍,即什么是 Metrics、如何使用 Metrics,并对 Metrics 监控实战进行解释说明。