近几年,数据分析相关岗位需求呈爆发式增长,且大多还是高薪职业,让许多小伙伴纷纷半路“出家”开启数据分析师的求学之路。
很多年前,数据分析人员只要能灵活使用 Excel 就能找到一份不错的工作。后来,分析师如果能熟练操作 BI 可视化,能给老板一份漂亮的报表就可以成为公司里的明星员工。但在近几年,对于数据分析师来说除了要掌握基础的分析工具如 SQL、Python 等,还得学习数据清洗、建模,还有一系列统计学概念和精确算法用于数据分析,可谓难上加难…
基于上述环境,市场上就催生出了一批「数据分析专家」,他们拥有专业分析技能与技术储备,但这样的人才对于企业来说却是又“贵”又“难招”。如果企业想要实现数字化转型,成本压力不言而喻;另一方面,Gartner 也在近几年多次指出未来企业的数字化发展在于「数据分析平民化」, 也就是说企业管理者需要培养或者赋能更多业务一线的平民数据分析师,做到真正的从下至上实现用数据决策的战略方针。
企业数据分析的发展趋势
在近期的线上分享中,Kyligence 产品总监何京珂就为大家介绍了在数据分析平民化的趋势席卷下,企业如何做到支撑日常上千名用户的查询分析? 我们以市面上最流行的 BI 工具 Tableau 为例,将为大家介绍 Kyligence + Tableau 整体解决方案,更有 Demo 演示教学如何让一线业务分析师们只需“托拉拽”就能实现 PB 级数据量下的自助式分析!您也可以点击「阅读原文」免费试用体验!
数据分析平民化的必备要素
企业实现数据分析平民化的必备要素就是自动化。 这迎合了 Gartner 在 2019 年提出的 “Augmented Analytics” 观点,即增强分析。它将是未来数据分析的一个主流趋势将大范围得改革数据从管理、加工、分析这一大串链路中的人工工作。
过去我们为了服务数据分析,需要数据仓库专家来准备数据模型。这要求专家需要去了解现在这个业务的实际需要,例如哪些维度的数据需要被组合,用于分析什么场景等等。综合整理这些数据使用的模式 可能从中抽象提炼而形成模型。
有没有可能让上面这套流程自动化呢?
其实在企业内部,每一位员工都在使用他们自己的一套分析经验来做查询。在分析业务的当下其实就是将这些查询语句作为学习系统的输入。一个聪明的 AI 增强数据库产品就会很好的利用这些“群体智慧”来不断学习用户的行为习惯,从而找到共通点,进一步提炼出数据模型。
数据管理和分析自动化
当这个模型经过自动化的数据准备和预计算以后就能建立预计算的多维模型,然后这些经过计算准备好的多维模型又可以通过统一的语义模型再暴露给企业内部一线业务人员来做数据的分析,业务人员的分析的方式和角度又将变成一次新的模式识别进行数据准备及加工,以上就形成一个分析自动化的闭环。在后台也可以通过分析师、工程师以及数据管理人员进行管理和调整。
另外,在这条链路中也能让专家与业务管理人员对机器学习的内容有技术进行模型的微调,从而提炼出符合业务的语义逻辑且具有可用性及智能的数据模型。通过这样一套自动化程度比较高的数据服务,能够有效地代替前面说到的类似手工作坊式的人工数据管理的工作。
接下来将为大家介绍作为大数据圈智能分析引擎的代表 Kyligence,结合 BI 圈炙手可热的 Tableau 为例,解析大数据架构下如何搭建一套高性能、高并发的自助式分析平台。
Kyligence + Tableau 整体解决方案
从底层架构来看,Kyligence 作为一个统一的 AI 增强型的数据管理和分析平台,可直接部署在本地或云端。
Kyligence + Tableau 方案架构图
向下可对接关系型数据或 Hadoop 数据源,如 Hive 等,屏蔽底层数据源差异, 在 Kyligence 端统一建模,进行维度指标定义。向上通过 ODBC Driver 连接到 Tableau Desktop 或 Tableau Server。Kyligence 也提供其他通用的接口对接 PowerBI,帆软,SmartBI 等 BI 产品进行数据分析。
Kyligence + Tableau 主要优势如下:
架构可拓展,查询响应快。 使用 Tableau Live 方式可处理万亿行数据,直连查询性保持在秒级以内,支持高并发的同时保持高性能。
统一的语义层。 一键同步 Kyligence 模型语义定义 至 Tableau,无需重复建模。
自助式分析。 在 Kyligence 多维模型与预计算技术支撑下,充分发挥 Tableau 灵活、自助特性,满足 BI 平民化的自助式分析需求。
AI 自动建模。 Kyligence 可利用自动建模技术快速设计和构建数据模型,提高数据开发效率,缩减数据分析周期。
Kyligence + Tableau 开发模式
开发模式:减少重复劳动,提升效率
开发模式的最佳实践也是很多企业关心的问题,如何进行企业内各种职能角色的协同?我们结合现有客户的使用场景,提炼出了一套开发模式可供大家参考。
首先抽象出四类角色:开发人员、建模人员、分析师、业务人员。这四类角色并一定要严格对应四个人,可能有些企业一个开发人员就负责了准备数据、建模、分析的一整套工作,来满足业务人员的需求,可依据企业实际情况灵活安排。
开发人员——准备数据。 基于业务需求,IT 部门在平台的业务集市中建立各主题领域的数据,通过数据交换中心把数据从业务数仓同步到 Hadoop 构建集群(即离线分析平台)中。
建模人员——模型开发与发布。 在 Kyligence Enterprise 中设计基于业务主题的模型,创建好的模型包含该主题中可能用到的各种标准的分析指标和维度,同时在调度管理平台上为当前的模型创建定时构建任务,用来定时更新模型内的数据。接着可以基于已创建好的模型,导出 Tableau TDS 文件,并发布至 Tableau Server。
分析人员——自助式分析。 可基于 Tableau Server 已发布 TDS 数据源,在 Tableau Server Web 端或 Tableau Desktop 进行自助式多维分析,报表制作,另外可依据分析场景,二次定义指标、层级等。
业务人员——直接访问分析报表 或者可以基于 Tableau Server 来进行数据分析
权限集成:严格把控数据安全,数据“各有所用”
考虑到企业数据的隐私安全,Kyligence 提供针对项目级/表级/行列级的细粒度数据访问控制。为不同用户提供不同的数据视图。
统一的权限管理体系。 使用 Kyligence 进行统一的权限访问控制,行列级别控制,提供用户细粒度的权限控制,最大限度满足企业多样的数据管控需求。
更便捷的连接体验。 Kyligence Connector 的提供更顺畅的 Tableau 连接体验,省去额外的连接配置。
用户权限透传。报表制作者可使用高权限账号进行报表的开发与发布,而浏览者在查看报表时会切换其对应权限进行访问数据的限制。
免密查看报表。 Tableau 用户在 Server 端查看报表时,无需再次输入数据源的登录用户与密码,减少管理员运维成本,提升用户访问体验。
案例:大型银行自助式分析体验
背景介绍
这是一家大型股份制银行,该机构需要基于卡交易流水从多维度进行分析和指标统计,主要的维度和指标包括日期((年,月,日,周,天)、卡属性,品牌,地区,机构,交易笔数,交易金额等。
业务面临的痛点
业务分析需求得不到快速响应,大量依赖 IT 团队开发,需求一旦有调整就需要进入“超长等待期”。
数据质量较差,分析结果有较大偏差。因为后台数据口径不一,业务使用门槛较高。
扩展性较差,许多高价值的分析报告无法充分共享,专题分析发布周期长。
在过去由于使用的数据仓库的限制,该银行需要对不同的业务主体的数据单独建立数据模型,通过 SQL 取数的方式为业务提供分析时使用的数据,开发成本高,交付周期长。
通过新方案,该银行可以通过 Kyligence 构建统一的数据模型,通过导出 TDS 的功能将数据模型同步到 Tableau 实现一个模型分析众多分析报告的效果。
另一方面,在企业内部,由于各个部门对数据指标定义不同造成数据不可信的问题也时有发生。现在可以通过 Kyligence 的统一模型,该银行实现了对业务分析的口径与指标的统一。
使用 Kyligence 后的查询效果
下图可以看到目前该银行每个月有 5000+ 活跃用户,每月总查询数在 100 + 万,90%以上查询 < 1 秒。通过无缝对接 Tableau,真正做到了赋能业务自助式分析能力。
上面就是我们介绍的整套 Kyligence + Tableau 自助式分析的方案,感兴趣的小伙伴点击「阅读原文」免费试用!
也可以点击以下视频观看作为分析人员如何基于 Kyligence 智能数据分析平台在 Tableau 上进行数据分析~
现场 Q&A
Q: 调度管理平台是包括 kylin 和 hive 的节点,是 kylin 提供的吗?
A: 调度管理平台需要客户自行进行开发或使用第三方的工具,Kyligence 会提供自身数据开发过程中的 API,提供给调度管理平台来进行开发调度。
Q: Tableau 通过 ODBC 怎么配置访问 Kyligence?有配置文档么?
A: 详情可阅读我们的用户手册的 Tableau 章节:https://docs.kyligence.io/books/v4.2/zh-cn/integration/bi/tableau/tableau_desktop.cn.html
Q: 除了发布到 Tableau,可以发布到其他报表环境吗,比如 PowerBI?
A: 目前一键同步数据模型的功能暂时支持 Tableau,对接 PowerBI 时需要在 PowerBI 中根据 Kyligence 中的模型进行数据模型的手工定义。
Q: 是否可以连接到 Azure 最新的 Data Lake Storage Gen2? 并且读取 Hadoop 文件比如 Parquet?
A: Kyligence 云上版本支持 Azure Data Lake Storage Gen2 作为数据源。在云上如果需要读取 Hadoop 文件比如 Parquet,可以把 Parquet 放置在对象存储中,通过对象存储作为数据源来支持。如果是本地部署的话需要通过 Hive 来管理数据文件对应的 Schema。
Q: 计算度量,除了 default 的 function,是否可以自己定义度量逻辑?比如 YTD/QTD,Growth Rate 这些?
A: 如果是对接 Tableau 的情况下,可以在 Tableau 中定义计算度量来实现 YTD/QTD,Growth Rate 等动态计算,在 Kyligence 定义这些动态计算背后依赖基础度量,比如计算销售额的 YTD/QTD 可在 kylignece 中定义基础度量 sum(sales)在 Tableau 中定义销售额的 YTD/QTD,Growth Rate 计算。
Q: data source 方面可以支持 NoSQL 吗,例如 Azure Cosmos DB 之类的。另外当 data source 数据更新时,Kyligence Cub e 需要像其他的 OLAP Cube 去 process table/database 来 reflect 最新的数据?
A: 在 Azure 上暂时不支持 NoSQL 数据源。
在 Cube 刷新时方式比较灵活,可对单独时间区间进行刷新,也可以进行全量的数据刷新,具体使用哪种方式刷新需要根据客户的使用场景来选择。
Q: 权限怎么和 Server 登录账号关联的呢?
A: 简单的说是 Tableau 在查询 Kyligence 时会将当前登陆的用户信息发送给 Kyligence, Kyligence 会以该用户的信息来进行鉴权和查询,具体请参考用户手册:
Q: 请问报表都是实时连接到数据源去读取?支持数据提取吗?
A: Tableau 实时和数据提取都可以支持。
Q: 请问帆软也一样通过 connector 组件连接的吗?
A: 帆软不需要 connector 组件,在最新的 FineBI 5.1.9 版本中已内置支持 Kyligence 数据源。
本文转载自公众号 Kyligence(ID:Kyligence)。
原文链接:
评论