实时流计算,快数据时代的核心引擎
当前大数据已广泛进入企业生产过程,数据逐步变成了生产力,驱动企业快速发展,人们也越来越多的认识到,数据价值挖掘的时效性已经成为了企业竞争力。快数据时代,越实时越有价值,实时流计算已成为核心引擎,对应的开源社区实时技术也得到了越来越多的应用。
刚刚过去的 2018 年 Flink Forward 大会(美国旧金山召开),吸引了全球各地的大数据爱好者,各大企业如谷歌,易趣网,阿里巴巴,Uber,Netflix 等公司也分享了在实时流计算方面的应用,华为流计算专家时金魁也受邀参加,会上分享了华为云上实时流计算的创新与实践:Flink real-time analysis in Cloud Stream Service。华为率先将 Flink 进行服务化改造,在华为云上对外提供能力,吸引了社区广泛的关注。
Flink 大会现场
华为在大数据实时流计算领域已经有历时 5 年的技术积累,在电信领域也经历了严苛的检验,并在 2017 年 8 月在华为云上作为服务(CloudStream)的形式开放。CloudStream 服务具备什么能力?如何基于社区能力快速进行创新?如何做到对 IoT 等行业流式数据实时检测,快速挖掘数据背后的价值?看专家为您带来的独家解密。
华为云 CloudStream 作为实时流计算服务,微秒级的计算性能为企业挖掘实时数据价值提供了核心能力,其中有几个关键能力体现如下:
生态丰富 完全兼容社区接口
Flink 和 Spark Streaming 是目前业界主流的流计算引擎,两者以不同的设计思想(前者是原生流式计算,后者是微批处理计算)各领风骚,都有着活跃的开源社区支撑。CloudStream 集成了 Flink 和 Spark Streaming,双引擎方式很好的连接了开源生态,完全兼容开源社区接口,同时 CloudStream 提供丰富的任务提交方式,如 Flink SQL/Flink Jar job/Spark Streaming and structured streaming jar job,方便业务人员平滑迁移线下业务上云。
StreamSQL 的创新 使用更简单
CloudStream 采用 Serverless 架构,用户无需关心基础设施的管理,即来即用,服务提供 SQL 编辑器,采用简单的 SQL 方式即可完成实时流作业的定制,无需复杂的编程,如下图:
在 IoT 场景中,大量业务场景需要对实时数据流进行复杂事件模式(CEP)的检测,例如车辆异常行为检测、工业设备异常运行状态等检测,CloudStream 扩展了 Flink SQL,提供了非常高效的 CEP on SQL 的能力,提供了基于 Match Recognize 的模式匹配检测,可以帮助业务人员使用 SQL 实现基于复杂事件规则的异常检测业务,无需开发 Flink PATTERN API 自定义业务,只需要一行 SQL 查询语句就能搞定,大大降低了此类业务开发难度。
时空分析 做行业的快速使能者
IoT 大量业务场景需要对时空数据进行实时的地理位置分析,如电子围栏、偏航检测等。CloudStream 提供了一套完整的基于地理位置分析的 SQL 语法,方便用户进行快速的开发,语法包含三方面,具体如下:
其中:
1) DDL for Time GeoSpatial:快速定义基本元素,例如点、线、多边形、圆等;
2) SQL Geospatial Scalar Functions :对基本元素的操作,例如计算两点间距离、判断区域是否覆盖、分析距离相交包含关系等;
3) SQL Time Geospatial:在窗口中对基本元素的基本操作,例如计算多种窗口的平均速度和距离等。
使用 CloudStream 完成实时地理位置分析的任务,整体流程如下:
时空分析在 IoT 车联网场景中应用广泛,可以进行车辆轨迹回放,偏航检测,电子围栏,区域范围的出行流量统计等等,以此来指导交通路线规划,流量控制等,下面是三个通过 StreamSQL 实现的车辆网中常见的时空分析示例:
大数据时代,特别是云时代的到来,越来越多的企业摒弃了自建数据中心,选择上云,聚焦云上新技术给现行业务带来的创新与改变,天下武功,为快不破,华为云实时流计算服务除了在开源生态,CEP,SQL 等方面继续增强之外,还在边缘计算,在线学习等方面不断突破,致力于为企业及行业合作伙伴在海量数据和业务创新应用之间构筑一条纽带,让数据马上聪明一点,让价值即刻呈现。
本文转载自华为云产品与解决方案公众号。
原文链接:https://mp.weixin.qq.com/s/Sx-4Drm_lQMrNr7nIjZVBg
评论