写点什么

星环科技王天蓝:多模数据融合正成为下一轮技术发展新潮流

2020 年 12 月 30 日

星环科技王天蓝:多模数据融合正成为下一轮技术发展新潮流

从硅谷的经验来看,软硬件技术交叉结合并共同推动 IT 产业向前发展的趋势,一直都在继续,尤其是对于大多数从事基础软硬件产品研发的企业而言,这一趋势尤为明显。时下,伴随着内外部力量推动国产化技术加速发展,如何在国产芯片整体落后的情况下通过软件研发补短板?未来的软硬件互补发展模式将会是怎样的?更多的问题值得深入思考。


近日,在 2020 年 QCon 全球软件开发大会期间,InfoQ 记者就相关问题采访了星环科技首席大数据架构师王天蓝。以下,我们将结合王天蓝长期深耕技术一线,从芯片设计到软硬件技术结合、产品研发等领域广泛涉猎的丰富经历,逐一为你讲解基础软件研发及其赋能上层企业业务的落地过程,为你带来最新的一线工程人员经验参考。

00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.5x
    网页全屏
    全屏
    00:00


    芯片设计经历对我开展基础软件架构工作很有帮助


    InfoQ:在加入星环科技之前,你还在加拿大的芯片公司负责过芯片设计方面的工作,能谈一谈你个人的职场经历吗?


    王天蓝:我的职场经历大概可以分为三个大的阶段。第一阶段是从事芯片相关的研发,那个比较偏学术一点,因为许多算法的研发都是先通过数学的论证,然后到实际的软件中模拟。第二个阶段是偏向于软件工程,而且自己也进行了创业,搭建了一些前后台的系统。第三个阶段更加偏向于应用层,从之前在一家为金融机构做系统的公司做一些信贷、债券的评级系统。再到现在进入星环,是一个架构师的身份,相当于售前顾问,主要是把之前的那些技术运用到实际的工作中。


    InfoQ:在外界印象中,星环科技更多的是一家从事大数据、AI 等基础软件技术研发的企业,你能谈一下之前在芯片公司的工作,与现在在星环科技的工作,两者间有些什么联系吗?


    王天蓝:其实一开始联系不是太多,因为软件层整个行业它的抽象是非常明确的,做芯片的、做硬件的,然后再到做软件的,各个都比较分离。


    但是由于我们是基础软件平台供应商,所以很多系统上的一些优化,或者像数据库里面那些功能性能的优化,其实会跟硬件相关,有些地方可能用到一些指令集或者硬件加速的特性,在这里面的话其实我认为之前的从业经验还是对我有帮助的,主要是在客户面前去跟他们做解决方案的时候,以及回来跟我们的研发探讨的时候。


    在一些创新项目的可行性讨论阶段,如果你懂得更多可能会更好的能够去把控流程,不然的话在很多技术细节上是很难跟研发去交流的,可能会很难跟他们建立信任,在后面的项目推进过程当中阻力也会比较大。 


    InfoQ:你现在在星环主要负责哪方面的工作?


    王天蓝:我在星环主要负责大数据和人工智能的架构设计,其实对内的话我会有点类似于中台的角色,会把前面的客户的需求转化成一些平台后续开发的功能的方向,然后去跟研发实时的进行一个沟通。


    在前端的话,我也会为我们的售前团队以及销售团队去准备一些我们的弹药,把我们产品的功能特性展示出来,在客户端的话我会给他们做一些解决方案,因为其实面向于 B 端的系统还是比较复杂的,很多时候需要一些定制,我会把我们的产品和客户线的系统有机的结合起来,去给他们做整体的一个规划。 

    多模数据融合正成为下一个技术发展的新潮流


    InfoQ:您此次在 QCon 上海的演讲主题是《多模数据架构设计及应用案例》,为什么要讲这样的主题?能带给听众怎样的收获呢?


    王天蓝:多模数据是我们公司在去年就确定了的一个演进方向,后来也发现行业里的各大厂商也开始跟我们一样去宣传相同的概念,所以我认为这个是接下来数据库发展的一个重要的趋势。其实这个概念跟中台一样,还是有很多客户或者是厂商那边没有把它定义清楚。


    所以我这边是希望从底层芯片、从系统架构的角度,去定义多模态跟传统的数据架构到底有什么区别。


    InfoQ:多模为什么会是一个重要的趋势呢?


    王天蓝:其实历史都是比较相似的,有些东西总会分分合合,数据库也是一样的,最早就是一些简单的诸如关系型数据库这类的架构,到后来由于数据库也需要面对不同的场景,就延伸了像 NoSQL,像分布式的数据库等产品,同时也出现了一些像对称的内存管理或者非对称的内存管理架构。但是在这些架构稳定了之后,随着技术的演进,我们现在有更好的硬件,更好的网络,其实这些技术在某些程度上又是能够把这些数据库进行统一化的。


    中台其实也有类似的思想,就是我搭建多个数据系统,它本身系统也会成为一个孤岛,所以说随着技术的发展,一定也会从某种程度上合起来。当然这个分和的过程中,原来的那些架构一定是有它具体的价值的,并不是莫名其妙的就把它设计出来了的。


    对于我们而言,我们希望通过一个统一的多模态的架构在上面再封装一层,能够让底层的技术细节更好的进行封装隔离。那么基于这套平台,我们同样也能够在底层的数据上去做一些更加创新的事情,比如说做联邦存储,用多种数据模型去存一份逻辑数据,底下是多份物理数据。


    国产软硬件市场化最难的是缺乏第一个客户


    InfoQ:在国产替代大的背景下,国产芯片的技术比较弱,如果要通过国产软件与国产芯片的结合带来一个比较好的技术效果,中间的挑战会不会比较大呢?


    王天蓝:这一方面挑战我觉得是非常大的,可能要从生态等方面开始讲起,因为技术方面的东西,其实说到最后一定是人才或者说生态环境共同造就的。术业有专攻,这里面的规律肯定是一部分人专注在某一个领域,最后大家一起把这件事情做成。


    现在看来,国内诸如底层做编译器或者硬件架构的团队,其实商用成体系的还没有像国外那么成型。一方面是整个人才培养的问题,另外一方面其实是生态不成熟,整体很难去把它实现商业化。


    如果你做一个编辑器投入了一个团队做了一年,刚刚和一些免费开源的效果是一样的,但是做其他更简单一点的行业的人说我做这个事情已经赚了几个亿,这样的话是很难有心态去沉下心来去做这方面的科研的。


    在自下而上做全栈技术融合的企业中,我们可以看见比如说苹果,它很早就有了自己的移动端芯片,现在笔记本和电脑上也会出自己的芯片,包括很早他自研的 Xcode 等编译器,都有在做。像特斯拉也是,它应该今年会发布一个 SSD 芯片,里面只有 8 个指令集,但是他在这方面的深耕一定是对未来有长远意义的。


    我觉得我们是生活在一个物理的世界中,软件再怎么做它还是会碰到硬件的门槛的,现在看来主要就是芯片技术。所以说他为了突破,一定是需要往下再深耕的,让他的硬件和软件结合更好、更高效并且更稳定,之后让整体的边际成本也将下来。


    另外,硬件的产业链其实是很长的,从一开始硅晶元的提炼,到光刻机等方面的技术,这中间的迭代周期是非常长的,一般来说都在 1~1.5 年左右。而且每一层光刻机的模板可能就要花费几百万美金,然后你再生产出来之后,你是没有办法去测量里面的一些误差的,你写个软件我可以去调试,PSB 电路板也可以拿针去探测,但是芯片做好以后基本上就是盲盒,它是要一轮一轮的去迭代,不断地基于历史进行改进的。


    我们经常会形象的比喻,一个芯片其实相当于可能把上海的所有高速公路,所有的城市交通,全部规划到一个指甲盖大小的一个地方去,哪些地方会堵车,什么地方在流量高的时候可能容易产生交通事故,这些东西都是要在之前预测好的,烧进去以后你没法观测,所以它是一个看历史积累的事情,不太可能说是我一下子就设计出来一个非常高性能的芯片。


    InfoQ:在国产芯片或者说国产硬件弱的情况下,软件如何来补短板呢?


    王天蓝:其实我觉得弱不一定会弱很多。因为哪怕是现在 7 纳米芯片产生的效果,我们用 20 纳米的也可以达到同样目的,而且大数据本身就是一种使用廉价的硬件去做一个高可扩展的这样一个系统,他可以通过横向的扩展节点去提升系统的性能,这一块我觉得倒不是太大的问题,更多的还是在稳定性上面。


    我们现在也在积极的适配各大国产操作系统和软硬件,包括像麒麟这种芯片,我们都会去做深度的定制,然后进行测试。当然,现在其实我们的硬件也没有完全脱离国外的那套体系,从指令到一些软件的架构,一定还是有一些共同的地方的。其实对于这种大的系统来说,我觉得从性能的角度是可以容忍 20%左右的一个性能损失,然后再通过扩建节点补回来的。


    更多的核心是需要把软硬件厂商的适配打通起来,其实这也是在倒逼我们去迈出最艰难的一步,因为对于企业来讲,它的技术水平第一个考虑点还是系统的开放性、兼容性和稳定性,这就是为什么大多数软件厂商都是基于 X86 这种架构去开发的原因——因为只要是基于 X86 开发好了之后,就不用再去花费很多的人力去适配别的甲方的产品,因为大家都是一样的。


    其实现在硬件厂商碰到的都是相同的问题,就是生产出来国产的操作系统和芯片,推向市场的时候客户不敢第一个用,害怕第一个“吃螃蟹”遇到问题后没人来解决,性能方面的要求倒是其次的。


    既然现在国家层面都在推进这件事情,我认为是一个非常好的契机。 

    下一个企业技术选型方向是多模计算和存储


    InfoQ:你能从数据库技术架构演进的角度,简单分析一下星环的数据库产品及技术有何特色吗?


    王天蓝:我认为星环的特色首先是前瞻性。我们经历了三个大的技术选型,第一个是在 Hadoop 体系的时候,我们就决定去做统一的系统引擎,后来开始被国内外各大厂商去模仿。我们在那个时候就定位一定要做一个统一的系统引擎,成为开发人员或者是运维人员需要统一去使用的这样一个接口。当时我们就打通了底下的很多计算和存储,包括元数据的配置。


    第二个阶段我们的选型是上云,现在我们可以看到很多的同行也都在往这个方向走,云一定是未来的趋势,我们在去年就基本上已经实现了所有的技术和产品逐渐用微服务、容器等进行部署。


    当然,虽然现在看来云是一个很重要的方向,但当时实现的时候其实还是非常有难度的。因为一开始像 Kubernates、Docks 这些云技术,它主要还是面向于无状态的服务,我们做了非常多的调试,攻克了很多网络和调度上的难题,才能够在所有大数据组件上云的同时,不影响它的性能。


    第三个阶段也就是现在我演讲的主题,就是多模态的一个多模数据平台,这块我们认为也是之后的一个大的方向,从 TDH7 开始,我们主打的这个特性就是多模的计算和存储。


    另外,我认为我们公司的第二个特点就是具有一个非常良好的技术完整性。


    我们所有的平台在认定好技术选型是前瞻并且是可行的趋势的时候,我们所有的产品都会非常高效的去进行一个调整,我们会把所有星环的大数据产品全部去跟新的技术去进行一个融合对接,同时保证对外提供的也是像原来一样统一的一站式的数据平台服务。 


    InfoQ:企业中台的搭建近两年很受关注,你今天的演讲中也提到了数据中台,你能介绍一下你今天谈的这个数据中台与通常意义上的中台有何区别吗?


    王天蓝:中台的确是一个相当有争议的话题,我认为要讨论中台,一定需要定义好前台和后台,你才能够清晰的定义中台的范围。对于每家企业来说,它的业态不同,它的系统的数量、系统的耦合性,包括他业务变化速度不同,那么它的前后中一定是有差异的。


    对于企业如果想搭建自己的中台而言,更多的还是要做许多定制化的工作。作为技术提供方,我们定义的数据中台是因为星环本身是以大数据技术起家的,所以说我们会把它定义成跟数据相关的所有事情的一个平台,比如说从数据一开始的开发,到后面不同任务的调度、数据探索分析的支撑。


    原来大家数据仓跑的一般是机器学习的算法,但如果说机器学习的话,可能更多的是迭代式的计算,那么到最后的运维管理这一些东西全部是在数据平台范围里面的。因此,如果去使用多个数据库的话,其实对接当中的元数据的工作量是非常大的。不同的存储过程都要去分析数据的选源,或者是做数据权限的统一管理,这些都是需要中台去完成的。


    我们的数据中台更多的倾向于用更加统一的一套数据平台去解决问题,这样它底层在元数据原生就是有机结合在一起的,就不需要再去搭建很多系统去同步内容与信息了。


    AI 与大数据落地 90%的精力浪费于早期数据处理 


    InfoQ:在将大数据、AI 等技术落地到实际的业务过程中,你觉得最难也最重要的一点是什么?


    王天蓝:其实大数据和 AI 还是有些差异的,大数据我认为目前还是偏向于技术驱动的一个系统搭建的过程,我们需要看有哪些数据,有哪些计算、查询类型,然后根据它上下游系统的关系,可能还有一些历史包袱去构建这样的平台。


    所以说,其实发现大数据的时候,我们会有很多那种最佳经验,最佳实践去规划去估计他现在跑的业务会有多少的计算,CPU 要算多少轮类的,它的扫描效率是多少,从而去从容量性能方面去给它规划底层基础设施的一个规模。或者说不同的技术服务去建不同的集群。


    AI 我认为是另外一个角度的,AI 其实应该一般还是以业务去驱动的,AI 问题的定义本身其实是一个难题,因为它在语义上实在是太笼统了。比如说深度学习这个很好听的名词,很多人一听会把很多问题原来解决不了的,认为我深度学习以后就可以解决了。比如原来一些传统的逻辑回归模型,他会认为跟深度学习有关,但其实差异很大,然后再跟传统的建模技术、专家规则、自动匹配等这样一些概念笼统的混杂之后,这就会把 AI 的能力给放大很多。


    其实在定义问题的时候,最核心的还是从信息的角度去定义,就是有一部分信息如果不在这个系统里面,你用再复杂的模型也是没法把它给找出来,那么如果一开始在这个问题定义的角度思考不清楚的话,之后 AI 会做得比较痛快,因为很多信息原本就不在我们系统里面。


    我经常会举个例子,比如说之前有家导航公司会说,凯迪拉克的车主比较喜欢去休闲养生场所。但其实它只是基于它历史的导航数据去得出这个结论的,这样一听的话,如果让机器去匹配,他肯定觉得这个是非常强的一个关系。但是如果仔细一想,可能也不完全一定,因为如果你经常去某些场所,你干嘛需要导航呢,你直接就开过去了。所以说这部分的知识并不在这个系统里面,因为机器它没有开过车,也没有去过养生休闲场所,所以他不知道这个场景是什么样子的。


    人更倾向于在陌生的路段去使用导航进行规划。所以说这部分信息如果不在里面的话,你再怎么学再怎么深度也是决策不出来的。所以一定还是需要通过专家经验去把这种我叫外部变量比较多的系统去做分类,之后才会变成很多内部变量比较多的系统。


    这其中最典型的就是图像识别、音频识别,你要识别一个图像他是狗还是猫,所有的信息全在像素里面,虽然它是一个非常复杂的,没有简单的线性关系的这样一个规则,但是他所有的信息都在图片里面,那你一定是可以通过某种方式去对它进行分类的。有许多看似简单的问题其实是相反的,它的外部变量很多。


    InfoQ:这里面最难的地方在?


    王天蓝:我觉得现在最难的部分还是在于数据本身,去理解数据以及获得的部分数据,你需要有一定的信息才能通过 AI 的手段去找到这个信息和你需要预测的结果之间的关联,这部分其实是最难的。这部分难点有一部分来自于现在的数据管理,因为涉及到隐私,之前能够拿到的数据现在可能拿不到了。


    第二个难点其实就是集成的基础系统建设,可能在我们的系统里面,很多数据它是以一种日志的形式,非结构化数据形式存在那里,没有一个很好的治理,没有底层平台和元数据的融合,一个语言数学的融合,可能找不到。


    我之前也在很多项目上跟着实施人员跟进过一些项目,在找数据的时候的确会花费非常大的工作量。特别是银行它的业务系统非常之多,一两百个系统是很正常的,每个系统也是有不同的供应商,它的表结构以及设计理念都是不同的。 如果单纯去找的话,哪怕有收藏,已经进行过一部分的聚合和累积以后,要找一个主题其也会耗费大量的工作量。


    内部数据的梳理和打通,其实就是我们常说的特征工程、数据清洗占到建模 90%的一个工作量,其实就是这个意思。


    这时候如果能够很好的搭建一个自上而下的中台,让业务能够很快的找到数据,并且很多元数据集成数据记录在系统里面,比如说资产目录里面,那就能够达到减少这部分重复工作的目的。


    现在的现状是,很多这部分的信息是记录在各个项目经理的脑子里,有张表到底什么意思对不对?或者说是不是有一张更新的表,这张已经废弃了,只能通过邮件电话、工单的形式去了解,而且一定是非常低效的,并且负责人走了之后信息就没有了。


    InfoQ:星环科技这边在打通数据孤岛这个方面会做些什么样的工作呢?


    王天蓝:我们也会有相应的数据的咨询服务团队,专门去帮客户从数据治理开始,一直到中台各个组件的落地,以及一些开发运维测试工具的打通,这上面都会有相应的团队去做。


    我更喜欢将中台当做一个解决方案看待,你不可能说我只卖你一个中台产品,还是需要在具体落地的时候有专门的顾问团队到现场去进行采访,发现现在哪些元数据打不通导致流程低效这些问题,然后有针对性的去规划一二三阶段。


    因为这里面系统非常的多,一次性打通的成本和风险都是非常大的,所以说前期的咨询规划,后期的数据治理,然后再到最后落地时把它变成不同组件统一在一起的界面等等,这些都是需要以解决方案的形式去做的。 

    2020 年 12 月 30 日 11:35692

    评论

    发布
    暂无评论
    发现更多内容

    2021年企业需要了解的和云计算相关的6大趋势

    浪潮云

    云计算

    【LeetCode】笨阶乘Java题解

    HQ数字卡

    算法 LeetCode 4月日更

    需求分析是什么?

    Simon

    架构实战营

    Apache Flink Meetup · 上海站,超强数据湖干货等你!

    Apache Flink

    flink 数据湖 iceberg

    华为帐号服务学习笔记(一):什么是HMS,什么是华为帐号服务

    Coding狙击

    android HMS

    Uniswap v3揭开真面目NA公链(Nirvana)NAC公链表示不服

    区块链第一资讯

    党组织智慧党建云平台开发方案,领导干部管理任免系统开发

    WX13823153201

    PatraStore上线,带来DApp操作系统的全新体验

    Patract

    rust blockchain polkadot Patract Wasm

    面试官:什么是死锁?怎么排查死锁?怎么避免死锁?

    小林coding

    多线程 操作系统 死锁

    AIOps 让「事件管理」变得更加智能

    睿象云

    AIOPS 告警管理

    当 ITOA 遇上 Cloud Alert,企业可以至少每年节省 3600 小时!

    睿象云

    智能告警

    微众银行区块链开源基于Rust的Wasm合约语言框架Liquid

    Patract

    rust blockchain polkadot Patract Wasm

    答题拿奖两不误:华为云知乎金牌答题官,就是你!

    华为云开发者社区

    程序员 华为云 知乎答题 答案 金牌答题官

    Rust从0到1-所有权-概念介绍

    rust 所有权

    统一元数据,数据湖Catalog让大数据存算分离不再是问题

    华为云开发者社区

    大数据 元数据 存算分离 华为云MRS 数据湖Catalog

    LiteOS内核源码分析:任务栈信息

    华为云开发者社区

    LiteOS 任务栈 栈指针 LOS_StackInfo LOS_Task

    有道云笔记新版编辑器架构设计(下)

    有道技术团队

    架构 前端

    一文掌握GaussDB(DWS) SQL进阶技能:全文检索

    华为云开发者社区

    sql 全文检索 华为云 GaussDB(DWS) 字段

    Litentry基于Patract的Redspot和Europa产品进行ink!合约开发,拓展身份服务生态

    Patract

    rust blockchain polkadot Patract Wasm

    波卡合成资产协议Coinversation与Patract合作共建Wasm合约开放平台

    Patract

    rust blockchain polkadot Patract Wasm

    九城200万美元加码FIL挖矿,IPFS有投资价值吗?FIL币价格今日行情

    投资矿机v:IPFS1234

    九城200万美元加码FIL挖矿 FIL币价格今日行情 IPFS有投资价值吗

    RUOYI 框架教程 12| 若依视图解决多表查询,就是这么简单!

    Java_若依框架教程

    Java 技术 Ruoyi 框架 若依

    ZooKeeper 会话的秘密

    HelloGitHub

    Java zookeeper ZooKeeper原理 zk

    华为帐号服务学习笔记(二):OAuth2.0协议详解

    Coding狙击

    android 华为 OAuth 2.0 HMS

    零代码实现一对一表关系和无限主子表级联保存

    crudapi

    API crud crudapi 主子表 多对多

    Java-技术专题-Synchronized锁的分析

    李浩宇/Alex

    Java synchronized

    IPFS挖矿怎么提现?IPFS交易所靠谱吗?

    投资矿机v:IPFS1234

    IPFS挖矿怎么提现 IPFS交易所靠谱吗

    INTERSPEECH2020 语音情感分析论文之我见

    华为云开发者社区

    数据处理 模型 音频 语言情感分析 INTERSPEECH2020

    有了人工智能技术,告警管理会发生什么变化?

    睿象云

    人工智能 事件管理

    波卡无抵押借贷平台Bandot加入Patract Wasm合约开放平台

    Patract

    blockchain polkadot Patract Wasm ink!

    Patract将支持隐私DeFi协议Manta Network集成Wasm合约功能

    Patract

    rust blockchain polkadot Patract Wasm

    演讲经验交流会|ArchSummit 上海站

    演讲经验交流会|ArchSummit 上海站

    星环科技王天蓝:多模数据融合正成为下一轮技术发展新潮流-InfoQ