点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

锚定数据处理几大痛点,企业如何利用数据云平台释放数据全部价值?

  • 2023-04-12
    北京
  • 本文字数:4635 字

    阅读完需:约 15 分钟

锚定数据处理几大痛点,企业如何利用数据云平台释放数据全部价值?

2020 年 4 月 9 日,国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据定义为继土地、劳动力、资本、技术之后的第五大生产要素。数据对于社会生产的重要性被提到了前所未有的高度。


随着社会各行业的数智化转型步入深水区,更多企业希望利用数据驱动业务增长,他们在管理其数据分析工作负载的膨胀规模和复杂性方面面临重大挑战。在许多大企业中,拥有几十个分析应用程序并不罕见,这些应用每年产生的查询总量超过数几十甚至上百亿个,数据孤岛和传统分析架构的局限性让数据驱动业务增长变得更加困难。更令人痛心的事实是,这些应用产生的海量数据大部分都被浪费掉了,并没有真正服务于生产中。


所幸,新兴的数据云提供了解决方案。数字化创新者正在构建数据云来消除数据碎片化并充分利用数据的全部潜力。


那么,数据云技术到底在数据处理方面有着怎样的优势?为什么数据云的概念在近几年备受关注?这项技术目前的落地情况如何?数据云领域有哪些前沿技术值得我们关注?近期,InfoQ 采访了 Kyligence 合伙人兼副总裁李栋,以期进一步了解数据云技术特性以及应⽤实践。


InfoQ:很高兴您能接受我们的采访,能先向读者简单介绍下您自己吗?(包括您目前负责的工作,过往经历等)您最近在关注哪些技术?


李栋:我是 Kyligence 合伙人兼副总裁李栋,目前负责全球市场与增长工作,曾负责过 Kyligence Enterprise、Kyligence Zen 产品线规划、设计和管理工作。也是 Apache Kylin PMC Member 和 Committer。我最近关注的技术有:数据分析应用、数据平台架构等领域技术,以及最近很火的以 ChatGPT 为代表的 AIGC 技术


处理数据的方式在不断演进


InfoQ:伴随着 5G、AI 等技术的发展,数据呈现海量爆炸式增长。处理数据的方式也和以往大不相同,据您观察,最近几年处理数据的方式都发生了哪些变革?


李栋:首先,随着云计算、移动互联网等技术的成熟应用,数据的存储与管理模式从传统的集中式管理改变为天然的分布存储。例如数据安全法要求数据不能出国界,或者企业 IT 架构本身是多云的,这导致数据难以像以前一样存储到一个单一的数据仓库,也就是说,林立的数据孤岛成为一种常态。


其次,数据的消费者从少数决策者和专家,转变为一线业务人员和普通工作者。以前提数据分析往往是做决策支持(DSS),帮助老板做好决策。而现在企业数字化转型提出了数据平民化的要求,需要人人都能基于数据开展日常经营决策,管理者也需要通过 KPI 和 OKR 等对日常工作成果进行量化管理,这都给每个公司员工提出了使用数据的要求。


再有,数据的消费方式从“为已知问题找答案”,转变为“通过智能推荐提供对未知问题的预先洞察”。在 ChatGPT 引领的 AIGC 时代,AI 会帮助人产生很多难以预估的新内容。在数据行业也是一样,Gartner 早在数年前就提出了增强分析的概念,利用 AI 技术,数据分析将帮助人从中发现洞察,并推荐给人。


InfoQ:在这些变革中,您是否认为数据云是众多趋势之一?


李栋:我认为数据云是趋势。Kyligence 在 2021 年就提出了智能数据云的概念,因为我们认为企业未来使用数据,应该像今天使用云计算资源一样简单、方便。数据云正好迎合前面我介绍的三大趋势的技术形态。首先,数据云能够统一管理这些天然分布的数据,并提供统一的管理和治理平台体系;其次,数据云像水电煤一样,把数据这一只有计算机专业人才才能使用的资源,转变为普通业务人员也可以使用的资产,更好地实现数据平民化;再有,数据云融合 AI 技术,结合统一管理的数据平台,能够为用户提供更有价值、更准确的洞察推荐和行动决策。


InfoQ:目前业内对于数据云的定义众说纷纭,您对数据云定义是什么?


李栋:谈到云,往往想到水电煤。而数据云,实质就是数据的水电煤。但这是一种比较虚的概念,在 Kyligence 这里,我们经过和众多企业客户的合作探索发现,指标平台是数据云落地的最佳形态。为什么呢?因为数据本身作为一种技术资源,是不能被业务用户直接使用的,往往需要懂 Hadoop、Spark、BI 等专业技术的人才能使用。但是,指标是一种通用的数据语言,既可以体现出数据技术的业务价值,又可以被业务人员理解。



指标平台提供统一的指标定义、管理、计算和存储,屏蔽底层的数据仓库、数据湖等技术语言,面向业务用户提供统一的业务语义层和指标口径,任何一个一线员工都可以从指标平台中获取自己感兴趣的指标数据,并驱动自己的日常工作。因此我说,指标平台是数据云的最佳落地形态。


InfoQ:它与数据平台有着怎样的区别?


李栋:指标平台和数据平台的区别,从名字上即可看出,数据要加工成指标才能被业务用户广泛使用,因此指标平台更贴近业务,更符合“数据的水电煤”的数据云的概念。


数据云能解决哪些问题?


InfoQ:目前数据孤岛和数据不一致问题是数据处理方面两大棘手的问题,那么,数据云能否解决这两大问题?


李栋:数据孤岛和数据不一致的问题可以被数据云妥善解决。按照我前面介绍,指标平台是数据云的最佳落地形态,我来解释一下如何通过指标平台来解决这两大问题。


数据孤岛的问题,我在介绍趋势时提到,数据孤岛是天然存在的,我们不能通过把这些孤岛全部导入到一个统一数据仓库里来解决,因为这只会产生一个新的孤岛。我们认为,数据的管理方式要从 Collect 转换到 Connect,也就是说要通过连接的方式,对分散存储的数据进行统一管理,并对外提供统一服务。通过指标平台,虽然数据存储在不同的引擎,但业务指标是统一定义和管理在一个体系和平台中,业务用户使用数据时,只需要在平台中寻找正确的指标,无需关心底层数据存储在哪个平台或哪朵云上。


导致数据不一致的原因有很多,抛开数据本身的质量问题不讲,在业务应用方面最常见的是数据口径不一致,举个例子,企业在统计不同省份销售收入时因为计算逻辑不同,最后极有可能导致所有省份的数值加一起和总部计算的全国销售收入数值不相等,这就是指标管理问题。再或者,业务和财务对订单收入的指标理解经常是不同的,这是口径管理问题。指标平台提供统一的指标目录能力,能够在同一个数据逻辑中管理不同口径的指标,并对衍生指标、复合指标、相关指标等进行体系化管理,避免因为口径管理混乱导致数据不一致的问题。


InfoQ:除以上两大问题之外,数据云还能解决数据处理的哪些问题?


李栋:第一,是业务自主用数的问题。以前,业务想要进行数据探索是很难的,因为必需要先提需求给 IT,然后 IT 开发报表,这不仅效率低下、时间冗长,还限制了业务用户自主创新和探索数据的空间。在数据云上,业务用户不仅可以快速寻找所需要的指标,还可以基于平台中现有的原子指标定义符合自己业务的衍生指标,无需依赖 IT,实现业务用数的快速闭环,给业务用户提供更大的创新空间。


第二,帮助 IT 团队展现业务价值。以前,IT 团队为了支撑业务,只能不断开发和交付报表,所管理的都是表、ETL 任务、机器资源,是纯粹的成本中心。在数据云上,IT 团队管理的是指标平台中由业务定义的指标,这些指标都是极具业务价值的数据资产,IT 团队不仅可以轻松地从指标热度和用量来判断数据和自己工作的价值,还可以创新地对业务用户进行指标推荐,用平台角度对业务用户进行指导和赋能,这是从成本中心向业务中心的一个转换。下图就是一个比较形象的说明。



数据安全问题怎么解决?


InfoQ:如今数据安全问题也被提到了前所未有的高度,那么数据云是如何解决数据安全这一问题的?


李栋:首先,数据云是架构在成熟的 IaaS 层之上的应用技术,无论是公有云还是私有云,数据云在数据存储、数据传输方面都是直接利用 IaaS 层的数据安全措施。


其次,在数据云中进行指标管理时,可以支持对指标的权限管理,以保证不同业务团队只能访问自己有权访问的指标。与此同时,业务用户只能访问指标,不能访问底层的原始数据,这也为数据安全提供了一层坚实的屏障。


再次,数据云提供指标 API,供下游用户轻松获取所需数据,而不是像传统方式导出明细数据供下游二次加工,从而避免因为数据导出产生的数据泄露问题。


数据云的落地场景及技术趋势


InfoQ:数据云领域有哪些前沿技术值得我们关注?数据云又会运用到哪些基础设施来为其提供支撑?


李栋:前面我提到的指标平台是值得关注的技术之一。除此之外,我认为还有低代码、增强分析、AIGC 等技术值得关注,因为这些都是在帮助企业使用数据、开发数据应用提高效率的技术。


数据云不仅会运用云原生容器化技术、大数据分布式技术,也会运用到我提到的这几项技术。通过低代码,业务用户和数据分析师可以通过更低的学习门槛,来创建和使用指标,以及把自己的洞察信息分享给他人,开展数据协作。通过增强分析和 AIGC,AI 可以为业务用户提供更多推荐,辅助业务用户快速找到最有价值的数据。


InfoQ:您能介绍下,目前,数据云发展到什么阶段了?它的落地情况如何了?


李栋:在 Kyligence,数据云不再是一个概念,而是经过多家大型金融、零售、制造等企业验证和落地的通用架构——指标平台,例如平安银行,通过搭建潘多拉指标平台把数据开发周期平均缩短 3 到 5 天,开发人力成本缩减 30%。此外,Kyligence 也发布了一站式指标平台 Kyligence Zen(SaaS 版),帮助包含零售、制造、SaaS 等企业快速获取数据云的能力。



Kyligence Zen 产品架构图

InfoQ:您能聊一聊数据云的部署相关问题吗?数据云的部署成本高不高?运维难易程度如何?


李栋:根据不同的企业规模和行业属性,通常建议选择不同的部署形式:

  • 对于金融、能源、电信等企业,以私有化部署或私有云架构为主,可以通过容器化形式部署,因为数据处理需要弹性的资源,通过容器化技术可以提供弹性可扩展的计算资源;

  • 对于零售、互联网、制造等行业的头部企业,尤其是跨国企业,通常使用公有云技术,可以在公有云上部署数据云平台,通过存储与计算分离的特性,能够极大提高资源的利用率,从而优化 IT 成本;

  • 对于高速增长型的企业,或初创企业,对数据敏捷性要求更高,可以直接使用 SaaS 产品,既能减少运维方面的人力投入,并按实际用量计费,节约 IT 成本,还能够省去 IT 基础建设的过程,加快平台落地的进程;


InfoQ:您认为什么样的企业更适合部署数据云?在部署数据云时应注意哪些问题?


李栋:只要是数据驱动型企业,都适合部署数据云平台,也就是指标平台,只是部署形式不同,具体可以参考上述建议。


InfoQ:企业在面临数据云技术选型时,应该考虑哪些因素,应该选择什么样是数据云服务?


李栋:企业做数据云技术选型时,应该考虑的维度包括:业务友好、易于治理、开发方便、成本最优。 指标平台是最佳的数据云服务,主要有以下几点原因:


  • 业务友好:指标平台以指标为核心概念,指标是业务和技术都能理解的共同语言,对业务用户十分友好,业务用户不仅可以方便的查找指标并进行查看,还可以自助定义衍生指标,实现创新性的数据探索;

  • 易于治理:指标平台以指标为治理单元,通过指标名称、标签等对指标进行分级分类,管理数据资产,以及通过指标评估和发布审核,实现对数据的治理以及 ROI 评估。除此之外,IT 可以以指标为抓手,对数据的价值进行评估,展现数据的业务价值,从管理成本转变为管理数据资产;

  • 开发方便:指标平台提供低代码的指标开发流程,无论是 IT 团队还是业务用户,都可以像写 Excel 公式一样,自行定义不同层级的业务指标,大幅缩短数据应用开发的时间;

  • 成本最优:因为 Kyligence 是由 Apache Kylin 创始团队创建,因在大数据 OLAP 引擎领域的深厚技术积累,能够以更少的 IaaS 资源支撑更高并发访问和更大数据量,从而把成本优化到最低。除此之外,通过指标平台 SaaS 服务的部署形式,也能帮助企业节省运维开销。

2023-04-12 15:093424
用户头像
李冬梅 加V:busulishang4668

发布了 574 篇内容, 共 212.5 次阅读, 收获喜欢 747 次。

关注

评论 1 条评论

发布
用户头像
不敢苟同!

我们不能通过把这些孤岛全部导入到一个统一数据仓库里来解决,因为这只会产生一个新的孤岛。

2023-04-14 11:21 · 上海
回复
没有更多了
发现更多内容

瓴羊Quick BI智能报表打破“中式”报表限制,提速增效

夏日星河

推荐系统[八]算法实践总结V0:腾讯音乐全民K歌推荐系统架构及粗排设计

汀丶

自然语言处理 推荐系统 推荐算法 搜索算法

华为Push用户增长服务:精准触达,加速增长

HMS Core

HMS Core

一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

OneFlow

人工智能 深度学习

富表智能可视化设计工具(FusionView)

风清扬

数据分析 低代码 可视化 数据大屏 数据可视化拖拽

高级前端必会面试题(边面边更)

loveX001

JavaScript 前端

实现一个简单的Database11(译文)

GreatSQL

MySQ percona server greatsql greatsql社区

INFINI 产品更新|Loadrun 首发亮相

极限实验室

console Gateway infini loadgen loadrun

React面试:谈谈虚拟DOM,Diff算法与Key机制

beifeng1996

前端 React

说说Vue响应式系统中的Watcher和Dep的关系-面试进阶

bb_xiaxia1998

Vue 前端

有趣的`events_statements_current`表问题

GreatSQL

MySQL greatsql greatsql社区

百度前端高频react面试题(持续更新中)

beifeng1996

前端 React

这些js原型及原型链面试题你能做对几道

loveX001

JavaScript 前端

能不能手写Vue响应式?前端面试进阶

bb_xiaxia1998

Vue 前端

人人看得懂的ChatGPT技术原理解析

Baihai IDP

人工智能 自然语言处理 NLP 大模型 12 月 PK 榜 ChatGPT

互联网大厂Java 最常见的 1100+ 面试题汇总(金三银四面试必备)

架构师之道

java面试

用于双目重建中的GPU编程:julia-cuda

京东科技开发者

机器学习 gpu 编码 Code julia

阿里前端二面经典手写面试题汇总

helloworld1024fd

JavaScript 前端

谈谈前端性能优化-面试版

loveX001

JavaScript 前端

解密游戏推荐系统的建设之路

vivo互联网技术

架构 推荐系统

零代码(低代码)工作流引擎(cube-flowable)

风清扬

低代码 工作流引擎 动态表单

react的jsx和React.createElement是什么关系?面试常问

beifeng1996

前端 React

2023前端二面经典手写面试题

helloworld1024fd

JavaScript 前端

快来解锁小程序蓝牙开发技能

南城FE

小程序 微信 前端开发 uniapp 蓝牙

阿里前端常考vue面试题汇总

bb_xiaxia1998

Vue 前端

js函数柯里化-面试手写版

helloworld1024fd

JavaScript 前端

一步步实现React-Hooks核心原理

helloworld1024fd

JavaScript 前端

前端必会面试题指南

loveX001

JavaScript 前端

前端一面react面试题(持续更新中)

beifeng1996

前端 React

学生信息管理系统

lory(侯保国)

DevOps 与 FinOps:二者可以协同吗?

SEAL安全

DevOps FinOps 企业号 2 月 PK 榜

锚定数据处理几大痛点,企业如何利用数据云平台释放数据全部价值?_文化 & 方法_李冬梅_InfoQ精选文章