写点什么

围绕 Apache Kylin 核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

  • 2019-07-13
  • 本文字数:3282 字

    阅读完需:约 11 分钟

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

2019 年 7 月 12 日,国内首届以 Apache Kylin 为主题的大数据领域的前沿盛会 Kylin Data Summit 在上海落幕。Kylin 自 2015 年 11 月毕业成为 Apache 软件基金会 Top-Level 项目后,Apache Kylin 已经成为全球领先的开源大数据 OLAP 引擎,迄今在全球已超过 1000 家企业使用。2016 年,以 Apache Kylin 核心团队组建的 Kyligence 在中国成立,迄今为止为推动国内企业的智能数仓转型、数据分析领域做出了众多贡献。

这场大会,可以说是 Kyligence 对于国内市场理解后的一份成绩单。接下来的时间里,Kyligence 能否用其新发布的功能产品来引领国内这样一股数据为本、数据为先的数据分析潮流呢?

回归以数据为本的创新

当下,国内传统企业已经进入到了数字化转型的关键阶段,以金融、银行为代表的国内传统企业,正面临着业务渠道急需拓宽、用户体量飞速增长与传统技术架构之间的矛盾。


在企业数字化转型的关键阶段,如何回归到以数据为本的创新中来?面对经济、互联网发展的新阶段,大数据分析领域,又面临着怎样的十字路口?2019 年 7 月 12 日,国内大数据分析领域的前沿技术大会 Kylin Data Summit 落幕。在本次大会上,这些问题一一得到了揭晓。

让用户具有直接获取数据洞察的能力

构建完整数据分析能力体系

一个来自中国的开源技术,在全球范围内有这样的影响,让来自中国的技术力量在全球范围内都有持续不断的技术影响,这是 Apache Kylin 乃至 Kyligence 一直以来努力的方向。


Kylin 虽好,但想要用好,往往需要非常高的门槛,对没有技术基础的人员来说挑战非常大。现在,一些来自于 AI 的技术正在让应用场景的门槛越来越低。这也引申出了当下大数据领域的主要矛盾,即数据增长的数据及应用需求与极其短缺的产业工人之间的矛盾。


在这些矛盾中,Kyligence 只是所有行业数据分析中的缩影,在此次大会上,Kyligence CEO 韩卿打出了一套完整的数据分析组合拳。


本次发布的新一代产品 Kyligence Enterprise v4.0,进一步通过机器学习能力提供增强分析,大大简化了大数据分析的门槛,有效提升了数据分析的效率。其包括以下特性:


  1. 增强学习,自动建模:通过内置的无监督算法推荐并优化数据模型,可以轻松适应业务需求的变化

  2. 省心运维,化繁为简:系统可以通过自动化运维来完成日常运维工作,并且可以无缝对接各类主流 BI(商务智能)产品

  3. 灵活架构,轻松扩展:从 Hadoop 过渡到 Spark,基于 Apache Spark 的查询和任务引擎,针对于计算场景的深度优化,平军查询性能 10 倍于 Spark SQL 查询引擎。


这样一组数据可以看出新一代 Kyligence Enterprise 的性能:30 分钟自动建模,95%推荐成功率,降低 60%的数据加载时间,3 千亿的数据规模每天只需 300 美元,1 个 Cube 拥有 1200+纬度,不到 1 小时加载 80 亿数据等等。


同时,其它发布的两款产品为:Kyligence Insight1.0——业务自助式数据服务,核心是集中在语义层,语义层是做数据治理和数据中台的基石;Kyligence Cloud3.0——一站式云端大数据分析,相较于上一代产品,做到分钟级别的测试能力。


从开源 Apache Kylin 开始,到增强分析版大数据分析平台,到 BI 到云端,再到现在构建了完整的数据生态分析能力,对于企业而言,数据分析正在越来越简单。通过围绕 Apache Kylin 的核心技术,构建这样一个数据分析生态,将会推动工程师、分析师以及管理人员更好地、更轻松地应用数据分析来为企业决策做决定。


同时,Kyligence 的产品更新不只限于功能上的更新,更重要的是沉淀方法论,通过已沉淀的数据分析方法论,来释放行业大数据的生产力。

为企业屏蔽底层技术障碍

前段时间 Hadoop 领域三大商业公司在运营商纷纷出现状况,大家也纷纷对 Hadoop 的前景感到担忧,并且 Apache Kylin 与 Hadoop 的关系紧密,未来在技术上应该何去何从,带着这些问题,Kyligence CEO 韩卿接受了 InfoQ 记者的采访。


韩卿提到,Hadoop 作为一款已经被社区验证过的超大规模数据处理的企业级通用平台,不会因为其中商业公司的运营情况而遭到技术层面的否定。同时,对于 Apache Kylin 来说,新一代 Kyligence Enterprise 选择将数据分析能力转移到 Spark 上,只是为了给企业用户更多的选择,并不是因为 Hadoop 最近的风波;另一方面,企业应用 Kyligence 来做大数据分析,Kyligence 要做的就是为这些企业用户屏蔽掉因为底层技术变更所带来的技术问题,这也是开源项目与商业项目的最大不同之一,降低数据分析使用门槛,让更多用户能够具备数据分析的能力。

数据本源筑造银行转型创新根源

同样,提起大数据,怎能少得了用户体量以及数据分析需求量最大的银行呢?在当天 Keynote 主论坛上,建信金融科技架构团队技术总监朱志就银行大数据的过去、现在与未来的演变趋势进行了深度阐述。


一方面,技术发展驱动着企业级大数据平台的逻辑演进。另一方面,在银行业,技术的发展也代表着银行业当下的窘境。当前银行在技术上过分依赖外包,因此无论现在市面上是 Hadoop、Spark 还是 Flink 占据主流,外包还是只会写 SQL。


银行业的未来在于线上,现在银行业务逐步线上化,这也就代表未来很多数据会集中在金融科技公司手上。银行虽然逐渐将业务重心集中在线上,但是其根本的存、贷、汇的逻辑并没有改变。银行业未来一定是虚拟化的,未来三年,银行大数据平台有以下三点机会:


  • 机会一,数据访问 API 化(打通内部之间不同的技术);

  • 机会二,降维打击 SQL(操作不同种类的语言技术替代 SQL);

  • 机会三,应用 AI 技术治理数据。


数据正在使今天的不可能变成明天的可能,就像比尔盖茨曾经说过的一句话:我们现在需要银行业,但不再需要银行。


此外韩卿也提到,虽然是从 Apache Kylin 中孵化出来的商业项目,但是 Kyligence 并没有忘记社区,只是扮演了更加重要的指导者角色。一方面内部有专门的团队在积极和社区合作完善 Apache Kylin 的开源;另一方面,Kyligence 只是更多关注在降低使用门槛以及提升应用效率层面,Kyligence 依然在影响和驱动社区的发展。

Augmented Analytics,未来数据分析的趋势

万事开头难,任何一项新技术以及趋势被放到大家眼前的时候,都是这项技术包括趋势最受到考验的时候。本次大会主论坛中,来自于 Gartner 的研究总监 Julian Sun,集中于『智能、新兴、扩展』三部分,现场分享了数据与分析领域的顶尖趋势。


这里为大家总结了 Julian Sun 现场讲解的几个趋势点,这些预测的趋势,主要集中于未来 3-5 的范围,帮助企业更快进行技术的实验和实施,这些预测趋势分别为:


  • 2020 年,增强分析将成为企业新采购分析及商业智能、数据科学和机器学习平台和嵌入式分析的主要驱动因素。

  • 2020 年,50%的分析查询将通过搜索、自然语言处理或语音生成,或自动生成。

  • 2022 年,商用人工智能、机器学习会取代开源占据市场主流,其中为用户提供的人工智能而机器学习技术的新解决方案中,75%将通过收费的商用平台(而非免费的开源平台)构建。

  • 2022 年,由于机器学习和自动化服务的加入,数据管理领域的人工任务量将减少 45%,技术领域需求减少 20%,减少的这些任务量是在帮助而不是取代,让工作更简单更灵活,


关于未来数据分析的趋势及前景,Julian Sun 解释道:对增强分析(Augmented Analytics)和增强数据管理(Augmented Data Management)来说,通过借助机器学习和 AI 能力,其目的是让数据分析真正普惠所有用户,而不是让数据分析只停留在企业中的少部分人


最后,Julian Sun 提到,开源技术门槛过高,商用平台可以用更低的门槛让更多企业和使用者来使用,模型将会成为一种商品的形式,而不需要去训练。增强数据管理,不是为了取代工作,而是为了让工作更创新,让决策者更应该主动看到业务的痛点和欠缺的部分,员工数据素养的提高,才能将数据价值应用到极致。

大数据的增强分析时代,已然到来

从 Gartner 的分析报告中就可以看出,未来数据分析领域将会成长为企业业务发展的重要决策手段。对大数据的定义正在重新发生,在当下这种需要快速决策的时代,大数据分析将承担更多的业务责任,数据分析也已不再是财务报表上锦上添花的内容。数据分析的未来,就像 Kyligence CEO 韩卿在大会当天引用《经济学人》文章的一句话一样:未来世界最具价值的不是石油,而是数据。


2019-07-13 10:2716210
用户头像
佘磊 策划编辑

发布了 50 篇内容, 共 21.5 次阅读, 收获喜欢 76 次。

关注

评论

发布
暂无评论
发现更多内容

大数据自动管理,24 小时服务无间断,StarRocks 如何做到?

StarRocks

大数据 数据分析 StarRocks

从 OpenTSDB 到 TDengine,至数物联网平台技术改造之路

TDengine

数据库 tdengine 物联网

espnet中的transformer和LSTM语言模型对比实验

华为云开发者联盟

nlp Transformer espnet LSTM语言模型 aishell

java版gRPC实战之六:客户端动态获取服务端地址

程序员欣宸

gRPC grpc双向流

大数据培训Flink 源码解析Async IO

@零度

flink 大数据开发

《LeetCode刷题报告》题解内容 Ⅲ

謓泽

3月月更

一个服务器轻松存储上亿数据,TDengine 在北京智能建筑边缘存储的应用

TDengine

数据库 tdengine 物联网

TiDB 在携程 | 实时标签处理平台优化实践

PingCAP

传统数据库改造难?华为云GaussDB“五心”解决

华为云开发者联盟

数据库 数字化转型 GaussDB 云数据库 华为云数据库

java版gRPC实战之四:客户端流

程序员欣宸

gRPC grpc双向流

亚马逊云科技创新大会 | 云基础架构

亚马逊云科技 (Amazon Web Services)

架构

学习编程是最好的复利方式

FunTester

FunTester

求职有 Pulsar | 中国联通、StreamNative 多个热招岗位

Apache Pulsar

开源 云原生 代码 Apache Pulsar 岗位招聘

如何判断线程池已经执行完所有任务了?

CRMEB

2.7万只!当前及未来仍将是量化交易的黄金期

非凸科技

rust 招聘 机器学习算法 算法交易

云效持续交付流水线,免费还好用!

阿里云云效

云计算 阿里云 持续集成 持续交付 持续交付流水线

基于服务网格的分布式 ESB, 实现应用无关的传统 ESB 转型升级

BoCloud博云

微服务 ESB

《2022网络威胁形势研究报告》重磅发布 | 附下载

青藤云安全

Linux下TCP网络编程-创建服务器与客户端

DS小龙哥

3月月更

java培训-JVM内存分配面试题分享

@零度

JVM JAVA开发

JavaScript数组,看这篇就ok了!

坚果

3月月更

面试突击35:如何判断线程池已经执行完所有任务了?

王磊

Java java面试

生产环境频繁内存溢出,原来就是因为这个“String类”

华为云开发者联盟

jdk JVM 内存 字符串 String类

NFT游戏NFT交易系统开发技术

薇電13242772558

NFT

100行代码实现HarmonyOS“画图”应用,eTS开发走起!

HarmonyOS开发者

HarmonyOS ETS ArKUI 3.0

web前端培训-MySQL的索引下推解析

@零度

MySQL 前端开发

java版gRPC实战之七:基于eureka的注册发现

程序员欣宸

gRPC 注册中心 eureak

TDengine 助力国产芯片打造“梦芯解算”,监测地质灾害 24 小时无间断

TDengine

数据库 tdengine 物联网

得物技术登录组件重构

得物技术

重构 用户增长 增长 组件 用户登录

java版gRPC实战之三:服务端流

程序员欣宸

gRPC

java版gRPC实战之五:双向流

程序员欣宸

gRPC grpc双向流

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?_文化 & 方法_佘磊_InfoQ精选文章