Snowflake 上市时股价曾一度飙涨到每股 400 多美金,Databricks 在彭博社最近的报道中估值高达 380 亿美元,这两家企业让大家看到云原生与大数据领域的诸多可能,也让有关现代数据堆栈的讨论甚嚣尘上。随着云计算的兴起,人们工作方式的改变,大数据格局已经演变为云原生架构。本期,我们采访到了下秒数据联合创始人李元佳,共同探讨国内的现代数据堆栈体系建设。
现代数据堆栈的概念解析
在讨论现代数据堆栈这个概念之前,我们可能需要花一点时间回顾数据技术栈的演进历程。dbt 的 CEO-Trisan Handy 曾对这个话题发表过一些看法,他将现代技术栈的发展分为三个阶段:
寒武纪大爆发第一阶段,从 2012-2016
部署阶段,从 2016-2020
寒武纪大爆发第二阶段,从 2020-2025
在第一阶段,最具代表性的产品是 Redshift,尽管这可能不是最早发布的 MPP 产品,但 Redshift 的到来真正点燃了整个领域,这是一个云原生的 MPP 数据库,是第一个可以按照 160$一个月进行采买而不是一年花超过 10 万美金。随着价格的下降,使用 MPP 数据库这个闸门突然打开了。当时 Redshift 是 AWS 有史以来增长最快的服务。
在 Redshift 发布之前,BI 面临的最难的问题是速度:即使在一个中等规模的数据集上做相对简单分析都可能会非常对耗费时间,并且构建了一整套生态系统来缓解这个问题。
数据在被装入到数据仓库之前首先要进行转换,因为数据仓库太慢和受限而不能处理这些繁重的数据处理工作。
BI 工具进行了大量的本地数据处理以解决数据仓库的瓶颈从而能够给最终用户一个可以接受的响应时间。
数据处理工作由中央的团队来严格控制从而避免数据仓库处理太多来自于最终用户的请求而不堪重负。
一夜之间,所有这些问题都解决了。Redshift 速度很快,而且很便宜。这意味着围绕解决这些性能问题而构建的 BI 和 ETL 产品都立刻成为了遗留软件,构建适合新的世界的产品的新的供应商也应运而生。企业家看到了机会并且蜂拥而至,这些产品在很大程度上定义了我们今天生活的世界。
进入第二阶段,事情的进展似乎变得缓慢,这在 Trisan Handy 看来是正常的,因为行业开始进入部署阶段,按照技术发展曲线来解释就是进入了爬坡阶段。在这个阶段,我们发现问题、解决问题并提出优化意见,等待着下一个爆发期的到来。
进入第三阶段,我们已经看到了下一轮爆发的征兆。最近这几年,我们看到了很多因数据而生的创业公司逐步进入到 IPO 阶段,并成为业务营收明星,在此之前,数据的价值一直没有明确的判断,直到 Snowflake 上市,第一次将数据领域的商业价值完全暴露给公众。当然,Clickhouse、Tebula(Apache Iceberg 背后的商业公司)、Firebolt 以及国内诸多新兴创业公司为这一领域带来了很好的讨论度。
在这一阶段,现代数据堆栈技术也变为基于云原生数据平台的技术集合,用于降低运行传统数据平台的复杂性。我们看到现代数据基础架构中的几个关键趋势正在形成:
第一,数据源和存储解决方案正在迁移到云端,云原生成为刚需。代表企业 Snowflake。
第二,随着数据上云的过程,湖仓一体化的架构会成为主流,这样可以很好的解决数据孤岛的问题。
第三,在湖仓一体的架构下,传统的 ETL 正在被更灵活的 ELT 所替代。
第四,到达数据的消费端,在新的大数据架构下,非技术用户希望越来越容易使用数据操作、报告和仪表板,需要更灵活自助的 BI 工具,Looker 正是提供了这样的工具。
显而易见,仅仅在云中拥有一个数据平台并不能使其成为“现代数据栈”。事实上,大多数云架构都无法满足分类要求,诸如云数据湖或其他定制解决方案之类的往往无法真正抓住现代数据堆栈的本质,而且往往感觉像它们的内部同类产品一样笨重。
那么,现代数据堆栈具备哪些特征呢?如果现代数据堆栈生态中的技术特征说起,大抵具备一些共性:
1.作为托管服务提供:不需要或只需最少的用户设置和配置;
2.以云数仓为中心:消除混乱的集成,工具可以很好地协同工作;
3.通过以 SQL 为中心的生态系统使数据民主化;
4.弹性工作负载:按使用量付费;
5.专注于运营工作流程:点击式工具非常适合低技术用户;
尽管现代数据堆栈的构成有很多不同的版本,有时也被称作数据科学需求层次结构,但底层的起源都是类似的,从数据管道开始。
传统数据集成方式已死
按照传统的数据集成方式,从数据进入到最后得出有效结果,我们需要耗费多少成本呢?
一个大数据项目落地加上技术及相关人员的总成本大致在大几百万甚至上千万起跳,而且这对参与人员的要求很高,通常需要 ETL 公司、建模公司、数据分析师等对多方角色参与。差不多十个人左右的团队才能把整个项目跑起来。
即便耗费了这么多人力和物力,最终的结果往往也很差,这与数据质量不好和建模结果灵活性较弱均有关系,目前的大数据平台仅在互联网、金融、电信等业务数字化相对较好、体量较大、能够承担大成本投入的企业中能获得不错的结果。
李元佳在采访中提及,核心瓶颈在于数据源端要花太多时间和成本处理,这种问题随着湖仓一体的落地进程加快而越来越明显。国内很多传统企业的数据来源于内部的各种系统,对这些系统的数据集成建模需要耗费巨大精力,这可能涉及一两千个系统、每个系统可能有几百张表,每个表可能又有很多字段,企业需要理解每个字段代表的意思,并对其做清洗、合并,如果可以将上下链路打通,降低数据集成的复杂度和成本,企业才有可能从大数据中获益。
此外,传统的数据集成系统位于数据中心的本地。随着组织数据需求的增长,更强大的硬件不足以解决问题。无论是在本地还是在云端,都需要更多的服务器来横向扩展数据处理基础架构。这些设置管理起来很复杂,需要并行机器才能运行。
今天的计算范式已经从本地转移到云端,而这种转变使数据管道能够迁移到云端。数据仓库技术也有了飞跃,允许原始数据按原样直接写入底层云存储,无需任何事先转换。目前最先进的数据管道工具是完全托管的服务,允许企业有效自动化其数据集成,解决本地不可扩展的架构、成本高昂等问题。
我们是时候重新构想数据管道了。
重新构想数据管道
完全托管的数据管道无需为数据集成设计、构建或管理硬件。所有基础架构都托管在云中,并根据需要配置和停用资源。如果企业仍然在本地托管他们的数据,一些工具可以在防火墙后面提取数据并将其迁移到云端。如果需要更多的处理能力,可以在云端自动启动更多的服务器,当存储需求增长时,可以按需附加性价比更高的海量存储池。
从成本角度,完全托管的数据管道消除了企业构建或维护数据管道的工作,且无需为管道选择连接器并仅需要根据消耗量计费,这也是下秒数据目前在做的一部分事情。
采访中,李元佳提到,企业在将高质量的数据灌入数据湖以及后续利用上还没有特别好的解决办法,下秒数据可以通过预建模的方式做到业务的快速接入,甚至不需要技术人员的深度参与,数据分析师或者业务人员就可以在平台上完成配置,通过 Excel 或者是一些 BI 工具就可以用了,大大降低数据管道的使用和部署门槛。
对开发者而言,这种 DataOps 的方式大大提高了效率,在不影响数据分析的速度和质量的情况下,使其数据程序具有高度的可扩展性,将原来很多需要手工操作的事情自动化了,同时实现了数据访问的民主化。根据组织的数据治理政策,所有的利益相关者都能够获得安全、高质量的数据,而不仅仅是少数人能够访问数据。
下秒数据的 Nexadata 相当于一个通用的数据集成平台,直接对接国内的大型系统软件,在这个层面解决数据源的问题,解决可靠性、实时性的问题,通过预置主流 CRM、电商、ERP、客服、营销、广告等模型,实现数据源开箱即用,只需数分钟即可完成数据集成。
以新零售行业为例,该领域的业务数据分散在各个应用系统之中,各系统间的业务数据未整合,缺乏完整度,异构系统交互打通技术复杂,实施成本太高;渠道复杂,需求应变慢,线下业态复杂,线上渠道增加,渠道数据分散,缺乏统一数据口径,业务反应速度难跟上变化;业务发展和变化快,固化的数据组合、建模方式没法灵活支撑新营销的开展,手工做表效率低下,数据质量不能保障容易造成信息差,大大降低数据时效性;供应链管理存在短板,大量的库存沉淀在各级渠道的库房里,形成周转压力,销售收入、库存周转等受需求预测准确性影响,业务高速增长,传统预测难以适应复杂多变的市场环境;难以精细化运营,数据分析结果滞后,难以结合业务及时沉淀数据分析模型。无法对各渠道进行实时监控、数据分析、预警。
下秒数据 Nexadata 基于对新零售行业的理解和实践经验沉淀,为新零售企业提供数据集成解决方案,借助智能数据管道技术,全链条打通线上线下 CRM、ERP、电商、零售、供应链、财务等企业信息系统的数据,赋能全域业务,向端到端智能化、自动化的业务流程发展,为企业获取持续竞争优势,帮助企业进行客群分析、精准营销、实时销售分析、库存分析等场景。提高数据效率,驱动业务增长。
从底层存储,到数据库和应用层面的云原生化,再到上层业务云化,这将会是未来驱动整个行业数年发展的强大动力。在国外,我们已经看到了围绕着 Snowflake、Databricks 的现代数据堆栈体系逐步建立起来了,但在国内还存在很多空白,我们可以共同期待国内的现代数据堆栈体系的生态建立。
延展链接:
https://continual.ai/post/the-modern-data-stack-ecosystem-fall-2021-edition
评论 3 条评论