写点什么

数据中台下半场,奇点云走向云原生

  • 2021-05-26
  • 本文字数:4512 字

    阅读完需:约 15 分钟

数据中台下半场,奇点云走向云原生

2020 年 9 月,伴随着云原生数据平台厂商 Snowflake 高调上市,“云原生”这个 2013 年就诞生的概念再度成为热词,被加入到众多数据平台厂商的广告语中。


是创业公司对资本圈风向的追随,还是重新看到了容器化、微服务等云原生技术带来的优势?亦或是因为时候到了——2020 年,中国 IT 预算里超过 50%的钱花在了云上,这不仅代表云计算已经成为了中国的主流,同时“非原住民”的数据问题也显得更加突出。


近日,在 StartDT Day 数据技术大会上,奇点云创始人、CEO 张金银(花名:行在)公开发布奇点云全新的数据技术战略:跨平台,云原生,自主可控


十个字,三个词,每一个词都代表着技术上硬碰硬的升级。在这其中,“云原生”再次被聚焦在舞台中央。



行在于 StartDT Day 数据技术大会


奇点云要做什么?为什么他们非要做“云原生”?

01 悄然生长的“云原生”

指针拨回 8 个月前,寻常的晚上,奇点云数据平台部负责人地雷收到了一封日报。日报来自平台部的运维工程师黑白,最后轻描淡写地加了一句话:“DataSimba 容器化编排已实现。”


DataSimba 是奇点云的数据中台产品,承担了企业数据治理、开发、管理、服务等职责,往下集成数据,往上搭载应用,也就是狭义上理解的“数据中台”。


地雷十分吃惊,容器化编排并不是团队安排给黑白的工作——当时,容器化编排还未排入 roadmap(产品路线图)。它意味着两件事:


一,2020 年疫情持续和业务爆发式增长的双重影响下,依旧有人在默默坚持,做长远的事。


二,在“云原生数据中台”的目标提出之前,DataSimba 就已往实现云原生前进了一步。


这更坚定了地雷做云原生数据中台的想法。


刚刚接手 DataSimba 时,为明确未来的发展路径,地雷做了一个月的调研,发现“云原生”不只是新一波的 buzzword 而已:


“打个比方,‘数据运维’,它在市场的宣传口径里很少见到,因为这是苦活累活,没有什么漂亮的东西。但我们和客户的 IT/运维同学是感同身受的——大数据集群规模大,进程多,非常需要微服务治理和其他智能运维技术。”地雷坦言,“云和大数据运维技术含量高,很多传统的运维工程师会面临比较大的学习成本。但是线上数据、计算和应用规模还在以每年 N 倍的速度增长。如果不采用 CI/CD(持续集成持续交付),而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。”


而在存储和计算成本层面,存储海量数据、作业高吞吐高并发的数据中台也对存算分离提出了更高的要求——如果把 Hadoop、Spark 等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容 HDFS 协议,能够根据业务需求进行弹性扩容,从而大幅度降低成本,提高集群性能。


成本和效率问题,推动着数据中台必须走向云原生。这也意味着,云原生不仅仅是一个“技术议题”。


2020 年秋,经过创始人、合伙人探讨,行在于奇点云内部正式提出“云原生数据中台是数据中台的未来”,DataSimba 要成为云原生数据中台,要让客户享受到云基础设施的优势。


同期,地雷正式完成了 DataSimba 产品的排兵布阵:微服务对象体系、容器化、CI/CD、元数据管理、存算分离等云原生技术要素,由不同的产品经理分别把守,构筑起坚实的云原生技术结界。


此时,又有个新问题接踵而来:“云原生,是谁的‘云原生’?

02 业务驱动的“跨平台”

如果讲大数据领域的云原生技术,毋庸置疑,知名云厂商们比奇点云起步早得多,必然也成熟得多。


无论是存算分离,还是容器化、微服务,这些技术要素在云厂商提供的云原生产品中都是必备的,而且不断提供更精巧、更聪明的“语法糖”(Syntactic sugar),让客户觉得更好用。


“但那是云厂商的‘云原生’,不是客户的云原生。”刘莹说。


刘莹(花名:公主)是奇点云联合创始人、COO,毕业于复旦大学计算机系,曾任 IBM 全球副总裁总助、IBM 大中华区行业销售运营总经理,原阿里云西南大区业务总经理,阿里云大数据创新业务代言人。


作为一个有着 18 年 to B 行业经验的“老业务人”,她坚定认为“客户认可”至上,杜绝闭门造车、“技术自嗨”。


打个比方,客户在充分享受云原生妙处的同时,从一朵云迁移到另一朵云的成本越来越高,不能自由地选择云厂商,而且不同云厂商之间还要分别派人、用不同的账号管理,这样的云原生还香吗


没错,在奇点云,最早嗅到云原生跨平台必要性的或许是商务。


有一家全球领先的 ODM 公司,持续地为海内外客户提供有竞争力的硬件产品。奇点云在前期咨询时估算了其未来的数据量,必须要上云。


那么问题来了:数据放哪里,上哪家云?


它的业态非常特殊,海内外的这几家品牌恰好都有他们自己的云服务,如果把数据放在 A 云上,B 品牌不同意;如果数据放在 B 云上,A 品牌不同意;如果把不同品牌的数据分头放,对于企业本身来说又大大增加了管理和分析成本,不利于未来数智化的发展。短期来看,企业只能找到一家目前还没有这块业务的云厂商 C,把经营、运营等数据放在 C 云上,先把数据中台搭起来。


这同时也存在一个隐患,出于产品耦合性的考虑,企业越晚迁移,迁移成本就越大,而在组织层面,未来潜在成本的问题又没有落到任何一个人的 KPI 上,大家都不知道谁来解、怎么解。


“常有人说云资源像电力资源。但不同的是,有些地方产电很便宜,可工厂的选址是固定的,它不可能想搬就搬去电力便宜的地方。”刘莹说,“云资源则不一样,企业是可以迁移去更划算的地方的。客户应该有自由选择的权利。


而另一边,地雷又在进行他的“隐秘工程”。


2020 年 7 月,地雷向高管汇报 DataSimba 的 roadmap 时,“夹带私货”提到了多 workspace 这个构想。在会上,行在并无多言,而在会后给地雷发了个 PPT,内容是几年前行在想做的 DataSimba 混合云方案。


两个“老技术人”一碰,地雷就明白了:“行在听懂了我的意思,哪怕这几年技术变了,我们的想法和方向是一样的。”


Talk is cheap, show me the code.


两三个月后,地雷带领团队“偷偷”地把多 workspace 在 DataSimba 上实现了第一版,再次向高管汇报。同时,一条从真实客户需求归纳出的结论,也自前线迅速传递至产品大后方:客户迫切需要支持跨平台的、中立第三方的云原生产品。


技术拓展商业边界,商业驱动技术升级。明确了客户需求,地雷在技术迭代上也更有底气。


在 5 月 20 日 StartDT Day 数据技术大会上,地雷介绍:


DataSimba R3.0 目前已实现跨云多域数据治理,支持海内外主流云厂商,包括 AWS、阿里云、华为云、腾讯云、京东云等等,实现统一账号、权限、审计的多 workspace 的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。”



DataSimba R3.0 的跨云多域示意图


这意味着依托 DataSimba,企业可以实现分级多域部署跨云跨平台部署


用户、权限及配置统一在主域上修改,从域即可自动同步最新数据;客户可以自由在不同的地区采用不同的云厂商进行部署,避免商业因素、地域因素、单一云厂商因素等对其数据能力建设的影响。在保证单个域资源独立的情况下,多个域之间使用统一的权限和账号体系,运维和管理人员就无需在不同平台间切换使用,工作效率也大大提升。


这是因为我们选择和客户站在一起。”行在毫不避讳地表示,“奇点云是标准的乙方数据智能技术供应商,服务于泛零售、金融、政府、制造、运营商等行业,所以有动力做这两件事:一,尽可能优化架构,降低数据应用在 IaaS 上的计算、存储成本;二,实现跨云数据治理,因此客户在云平台的选择上可以更加从容、更加独立。也就是,哪儿好用用哪儿,哪儿便宜用哪儿。

03 客户可控的“自主可控”

相比跨平台、云原生,自主可控这块“硬骨头”则难啃得多。


有一天,地雷接到行在来电:“奇点云要做自己的引擎,要自主可控。”


“我以前在阿里云 ODPS 就是干这个的,ODPS 团队是全阿里最贵的团队,一百多个高级技术专家,做这一件事。奇点云一向最贴近客户,很现实主义,我们适合做吗?“地雷放下手中的事,跑到角落里和行在争论了快一个小时。


而行在坚持:“这件事有意义,必须做。”


地雷心里非常矛盾。曾在 AI 四小龙之一担任产品总监的他,其实切身体会过自主可控的重要性:“那时候上实体名单,我们突然啥都不能用了,不能用苹果电脑,也不能用 Windows,甚至不能用我们常用的浏览器上网。”


但毫无疑问,自主可控的数据引擎有很高的技术门槛。时至今日,国内实现自主可控数据引擎的公司用一只手数都嫌多。


2020 年 7 月,奇点云到一家金融机构投标。这家金融机构提到:“我们已经花钱买了 CDH 的版权,但如果美国宣布不允许中国公司用 CDH,那我们可能营业都成问题。这能不能解决?”


这个问题像一颗手榴弹,炸到了行在和地雷心里。彼时,华为 EDA 和国内高校 MATLAB 相继被美国禁用,几乎每一家金融机构都有着类似的担忧。在这样的国际政治经济环境下,自主可控(Independence),也就是在技术和业务上保证可持续供应,成为了奇点云的必选项。


最终,还是客户让他们下定决心:“不能让中国企业发展在数据基础设施上被‘卡脖子’。”


2021 年 5 月,奇点云正式发布其自主可控引擎 StartDT-EMR。它是自有可控的、支持各个类型大数据 Job 和 Service 的计算和存储引擎,在技术和业务上保证客户数据基础设施的多样化、可替换、可迭代和可掌握,并保证对关键点的持续创新。


“这未必意味着 100%国产或 100%推倒从头发明轮子。相反,应该尽可能融入开放生态,符合工业标准。”地雷介绍。


行在则将奇点云的自主可控归纳为“开放的,可被客户掌握的,可以被替换的,可以迭代的”。


它不受国际政治经济环境的影响,同时也不受厂商的控制。“它不是一个黑匣子。当出现问题,客户不用抱着一个黑匣子等待厂商上门来修,客户可以自己看到问题所在,可以去迭代和更新。”


自主可控,就是客户可控。”行在再次强调。




从阿里巴巴到奇点云,行在做过国内第一代 DBA,搭过第一代数仓,创建过 TCIF(淘宝消费者信息库)第一次打通消费者数据,也创建过阿里云数加平台(现 DataWorks),把大数据能力外化给社会。


走过近 20 年的大数据之路,“技术老兵”行在从没放下他“普惠大数据”的野心。怀揣着数据技术的理想,旅途的终点始终指向客户。


在 5 月 20 日的 StartDT Day 数据技术大会上,行在首次对外披露了一个数字:NRR235%。NRR(Net Revenue Retention)指净收入留存率,“举个例子,我们 2019 年的新客户花了 100 块购买奇点云的服务,他在 2020 年还花了 235 块,继续购买奇点云的服务。这代表着客户对我们充分的信任和认可。”行在颇为骄傲地说,“作为参考,Snowflake 在上市时 NDR(收入为美元,即 Net Dollar Retention),是 158%。”


而在 NRR235%之后,奇点云要做什么?


“跨平台,云原生,自主可控。”


十个字的数据技术战略后面,还跟着一句话:“和客户站在一起。”


这个战略的提出仰赖于五年来客户的不断鞭策,从客户的需求中来,在 DataSimba、数据智能产品套件、DataNuza 等数据产品和服务中承接落地,又回到客户的实践中去。



奇点云产品矩阵


奇点云把“机器智慧超越人类智慧的瞬间”称为奇点时刻:数据通过好的算法和应用创造价值,同时应用后又产生了更多有价值的数据,再次让算法和应用成长升级,赋能业务,形成一个越转越快的闭环,解放人类去思考创新。


很难说距离实现“奇点时刻”还有多久,好在奇点云还很年轻,脚踏实地之余,有足够的时间让他们仰望星空。

2021-05-26 13:592347

评论

发布
暂无评论
发现更多内容

CWE4.6标准中加入 OWASP 2021 TOP10

华为云开发者联盟

漏洞 cwe 软件安全 CWE4.6 OWASP

架构实战营模块 9 作业指导

华仔

架构实战营

《致命愿望》:与魔鬼签订契约

爱奇艺技术产品团队

微信 ClickHouse 实时数仓的最佳实践

科技热闻

Kvrocks 发布 Exporter 工具

Kvrocks

redis Prometheus kvrocks

Apache Tomcat 7.x安全加固指南

喀拉峻

网络安全 安全 信息安全

基于内存通信的gRPC调用

Robert Lu

gRPC Go 语言

加速云原生应用落地,焱融 YRCloudFile 与天翼云完成兼容性认证

焱融科技

云计算 分布式 云原生 高性能 文件存储

高可用是什么意思啊?行云管家支持高可用部署吗?

行云管家

高可用 服务器 IT运维

Tapdata “设擂招贤”携手 LeetCode 举办全球极客技术竞赛

tapdata

Apache APISIX request_uri 变量控制不当,存在路径穿透风险公告(CVE-2021-43557)

API7.ai 技术团队

Apache 云原生 漏洞修复 Apache APISIX ingress-controller

「Oracle」Oracle 数据库基本概念

恒生LIGHT云社区

数据库 oracle

模块四 千万级学生管理系统的考试试卷存储方案

使用kubeadm快速搭建K8s环境

walker12138

ETL工具算法构建企业级数据仓库五步法

大数据技术指南

11月日更

【活动预告】下一代数据平台走向何方?

SphereEx

大数据 大前端 ShardingSphere SphereEx 线上沙龙

龙智携手Atlassian亮相GOPS全球运维大会,助力企业高效开发与运维

龙智—DevSecOps解决方案

运维 运维大会 GOPS大会

【干货】大数据开发之Spark总结

@零度

大数据 spark

【活动预告】Apache ShardingSphere 5.0.0 全新 Database Plus 架构演进

SphereEx

开源社区 ShardingSphere TiDB SphereEx 线下沙龙

深入理解 volatile 关键字

编程江湖

volatile JAVA开发

基于CarbonData的电信时空大数据探索

华为云开发者联盟

大数据 网络 电信 CarbonData 无线通信网络

Java 项目中使用 Resilience4j 框架实现异步超时处理

码语者

Java TimeLimiter 超时管理

10年阿里人告诉你:秒杀系统设计就该这么玩

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

如何与 Dapr 集成打造 Apache APISIX 网关控制器

API7.ai 技术团队

云原生 网关 dapr Apache APISIX ingress-controller

Java开发基础之开发环境搭建

@零度

JAVA开发

前端开发规范之代码规范

@零度

大前端

破解数据匮乏现状:纵向联邦学习场景下的逻辑回归(LR)

华为云开发者联盟

联邦学习 数据隐私 数据安全 逻辑回归 纵向联邦学习

本周话题:元宇宙到底是不是未来?

InfoQ写作社区官方

话题讨论 元宇宙

HBase 的协处理器详细剖析

五分钟学大数据

11月日更

云小课|打造企业数据“高内聚,低耦合”--试试GaussDB(DWS)逻辑集群,实现数据物理隔离

华为云开发者联盟

EI企业智能 数据仓库服务GaussDB(DWS) 逻辑集群

Linux学习有用吗?《Linux一学就会》教你如何学会Linux

侠盗安全

Linux 运维 云计算架构师 linux电子书

数据中台下半场,奇点云走向云原生_云原生_此方_InfoQ精选文章