随着大模型的兴起,企业数据体系的构建和管理面临着新的挑战和机遇。对于企业来说,如何以最低的成本、最安全的方式,最快速地调整和优化数据体系以支持大模型的训练和应用,成为了一个重要的议题。在刚刚结束的 ArchSummit 全球架构师峰会 2023(深圳站)中,数巅科技创始人、CEO 何昌华博士在主论坛上围绕“大模型趋势下的企业数据体系思考”展开了主题分享,在演讲中,他为大家介绍了他在大模型时代数据处理领域的发展趋势洞察,并简明扼要地为大家介绍了虚拟化技术、物化视图等关键技术与前沿数据理念,现场的架构师们获得了有关未来企业数据架构构建的关键洞察和有效指导,以应对大模型快速发展趋势下的大数据环境。
为了更深度地了解大模型与企业数据治理领域的发展,在演讲结束后,InfoQ 对何博士进行了视频专访,以下是视频专访的全部内容,为方便读者查看,视频下方也附上了文字内容。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
采访记者:InfoQ 资深编辑鲁冬雪
采访嘉宾:数巅科技创始人、CEO 何昌华博士
嘉宾简介:斯坦福大学 PhD,数巅科技创始人、CEO。之前曾经在蚂蚁集团担任计算智能部门负责人,计算存储首席架构师;2017 年之前在硅谷任职于 Google,Airbnb 等互联网公司。在过往职业生涯中,何昌华主导开发过实时智能决策系统、金融级的分布式图数据库、新一代分布式计算引擎、下一代逻辑数仓、新一代搜索引擎架构等。
InfoQ:您今天的演讲围绕《大模型趋势下的企业数据体系思考》展开的分享,您在演讲中提到了数据治理、人工智能领域的技术发展速度非常快,您能用三个关键词来总结下数据治理与人工智能领域未来发展的主要趋势是什么吗?
何昌华:第一个词是“规模化”。很明显规模化意味着数据、模型的规模,这些都是在极度膨胀,同时也意味着应用场景其实是越来越多,也要呈规模化的发展。
第二个词是“自动化”。以往通过人工来加工各类数据、做各类模型,这个过程会慢慢地被越来越多的自动化流程所取代,因为这样整个流程才能真正地实现自动化,没有人工的干预并且整个系统能够自动往前演进。
还有一个词是“融合”,或者叫“协同”。当前大家可以看到各类来源的数据,会把它融合在一起,成为一个叫做所谓超融合的数据体系。对模型而言,大模型基本上是具备了以前很多个小模型在不同场景下的一些通用能力,而“大模型”和“数据”又应该协同起来。
InfoQ:在您看来,人工智能和大数据领域最重要的技术挑战是什么?目前是否有比较好的解决方案?
何昌华:我觉得这两个领域有区分,但又是紧密联系在一起的。现在面临的一个非常核心的问题就是如何获得“高质量的数据”,事实上大家可以看到 ChatGPT,它之所以能够实现这样的能力,是因为它完全是在工程上,尤其是在数据策略上做到了极致,但其实本质上它并没有一个理论上的突破。他们有非常多的人,不仅仅是收集到公共数据,他还会去给数据做各种各样的分析、标注以及挑选合适的数据,最后做出了这样的一个模型。而反观我们有很多大模型的公司,事实上都是处在一个相对比较缺乏数据的阶段,尤其缺乏高质量的数据,这是一个非常大的挑战。
另外一个就是“整个计算的能力”,随着模型的规模越来越大,需要的算力越来越高。算力本身的转化,需要大量的设备与金钱来解决问题。这个问题其实还有一些解决方案,至少我们有能力去做大规模的集群,或者去打造一种专用的芯片,能让这个计算的密度变高,这个问题还是容易被解决的。
InfoQ:您在 2022 年创立了数巅科技,在创业之前在蚂蚁集团工作,想问一下您的创业初衷是什么?
何昌华:我在蚂蚁集团的时候就觉得数据智能这个事情在金融行业是非常有可能落地的。因为前一个巨大的场景就是搜索推荐广告(互联网场景)。通过在蚂蚁集团多年的观察,我发现“智能数据治理”不仅只服务于金融行业,它同时能够降低数据智能在很多其他行业的门槛。我们现在讲产业互联网的升级,或者讲企业数字化,它是真的可以帮到各行各业的,所以我们创立了数巅科技。
InfoQ:数巅科技是一家怎样的公司呢?公司愿景是怎样的?
何昌华:数巅科技的愿景是让数据智能像水电一样简单,让每个人都能方便地使用数据智能技术。这个愿景看似很高端,但我们的初心是让数据智能成为真正人人可用、触手可及的一项能力。
数巅科技目前已经拥有近百人的工程师团队,我们是技术驱动、产品驱动的一家公司,基本上大家都是在雕磨技术。我们的技术目前在世界上还没有完全对标的竞争对手,我们不断创新,打造出独特的技术。我们的团队全力打造这项技术,让它成为一项领先于市场的创新型技术。
数巅科技目前有两个核心产品。第一个产品是最底层的数据引擎,它基于数据虚拟化技术打造,具有通用的数据服务功能。这个引擎提供了虚拟的数据语义,使用户无需关注技术细节,像使用水龙头一样方便直接使用数据。同时,这个产品还采用了智能化和自动化的技术,性能比原来的产品更优秀。这个产品已经在实际场景中得到了应用和打磨,现在在多家企业得到了应用。
第二个产品我们叫大模型的智能助手,它基于现有大模型的技术,充分利用企业内部的数据资产,帮助用户充分协同大模型的能力,从而让生产一个大模型的应用,在企业内部变得非常简单。这个产品可以帮助企业进行智能的 BI 分析,用户可以直接说出指标和看板。同时,这个产品也提供了智能问答功能,可以结合企业内部的规章制度,回答用户提出的问题。这个产品已经在不同的场景下得到了应用和验证,表现出了良好的性能和效果,深受用户喜爱。
我们也做了智能的运营,你提一个问题,它就可以告诉你一个运营方案。我们也做了这样的一些智能的问答,它可以结合你企业内部的规章制度、企业内部的很多数据,回答用户提出的问题。
InfoQ:据悉,公司定位为“大模型应用和企业数据的协同者”,为何会将此作为公司定位?
何昌华:我们也是一直在思考这个问题,回到公司的愿景,我们还是希望能够让数据智能这个事情,能够很容易的让所有人能够用到。尤其(在)大模型出来的时候,我们就发现大模型它完完全全地降低了模型的门槛。以前我可能要花很大的精力针对一个场景去研发一个模型,当你发现有这样一个大语言模型,它的能力覆盖足够多的通用的场景。
第二个就是我们又发现在企业内部,它拥有大量的数据,甚至很多企业已经有了很比较成熟的数据体系。但是那样的一套数据体系,它以前是完全没有考虑过大模型这样的一个角色的,它那个数据体系里面基本上在做数据分析的一些东西。
所以我们觉得在这两个之间有一个巨大的鸿沟。并且从我们在技术上的理解来看,这两者也必须充分协同,才能够真正地做到企业业务的智能决策,所以我们才把自己定位在这样一个地方,并且我们能够抽象出一个通用的引擎来做这件事情。
InfoQ:听起来其实也不是大模型应用了,我觉得定位更像是“大模型与企业数据的协同者”。
何昌华:是的,我觉得我们不能算一个大模型的应用。
InfoQ:刚才您也聊到,咱们现在目前在研发的核心产品是数据虚拟化引擎和大模型的应用框架。我们先来了解一下数据虚拟化引擎,您觉得它的主要的功能和优势是什么?
何昌华:我觉得它最核心的功能上的优势之一,即用户可见的功能。它的确将大数据本身的复杂度全都屏蔽在用户之外了。在大数据过去 20 年的发展中,其实主要是因为数据量太大难以计算,因此才发展出一整套包括批处理、流处理以及各类数据加工,最后再回到现在所谓的一个 OLAP 引擎供大家消费。这条链路很长,我们能够看到很多中小企业,根本没有能力搭起这样一条链路。用户去消费数据时,他需要理解前面是什么样的数据和引擎,其理解的成本也很高。因此我们想用数据虚拟化引擎给用户真的提供一个纯数据视角。他作为一个业务开发者或一个业务人员,其所看到的就是一片数据。至于此数据你究竟是用什么引擎处理、存储位置、其计算的内容、他都不用关注,我觉得这是数据虚拟化引擎提供的最核心的一个能力。
我们后面需要把它的性能做到极致,这种情况下,我们也会做很多针对数据消费的语言,我们叫 SQL,针对 SQL 语言的优化包括自动的物化、包括加速等这样的能力。这个引擎可以帮助分析你的数据体系里有多少数据是重复的?有多少计算是现在冗余的?你又如何优化现有的体系?这是能够显著地给企业降本增效的。同时,企业如果用我们的引擎来访问它的数据,它事实上又能够得到更高效的数据访问、更容易地在未来跟大模型来集成。这些都是用户在实际使用过程中会看到的一些优势。
InfoQ:数据虚拟化引擎的技术特点有什么?刚才您也提到了 SQL,是不是在识别分析优化能力上,它的表现还是很出色的?
何昌华:我觉得这个引擎虚拟化是一个抽象的概念。它非常核心的能力是智能化,智能化就包含我们能够智能地对 SQL 做很多优化,我们能够智能地预测出来。譬如说可能哪一些中间表是需要预先加工出来的,这个技术叫做物化视图。这样下一个 SQL 执行的时候就会更加高效、更快,同时我们也能够做全局智能的编排。SQL 执行下来后,我应该怎么样分解这个任务、怎样去执行它、包括我内部的存储的数据该去有怎样的索引、如何跟外部交互,这些现在均在一个智能引擎的控制之下。这应该也算一条较创新的路。
当然从产品模式上来说,这个智能化的过程又是从产品上开放出接口,让用户完可以完全地、白盒化地控制它,因为事实上很多用户还是希望对中间的数据能有很多手动的控制,与一些自动、手动的处理。在这种情况下,我们完全在产品上会开放出给他们调节的机会。但是整个引擎本身是基于一个智能化的能力的。
InfoQ:我们还是聚焦到技术上,您觉得数据虚拟化引擎是如何帮助公司实现数据的高效处理和分析?
何昌华:我觉得这一层可以看作是实现了一个逻辑的湖仓一体。现在业界也有这样的一些概念出来,即所谓的逻辑数仓,大家都在基于这个概念在做产品,但我觉得我们其实没有 100%的和这个概念匹配,概念上我们相当于是建立起来一个逻辑的数仓,或者叫逻辑的数据集市。
这个逻辑化的体系,其实它是完全针对数据语义的。用户在使用的过程中,譬如说我们给其提供了一个虚拟宽表。现在就是做大数据的从业者,大家都会谈到大数据宽表的概念。数据宽表是非常难以加工,即你要用大量的计算存储才能把宽表加工出来。我们提供一个逻辑宽表很简单,但用户针对逻辑宽表来消费数据时,我们会根据其消费找到对应的物理数据,然后对 SQL 做各类优化处理。
包括我前置的可能会做一些预先的物化,从而能够让此 SQL 更加高速。这是我们整个链路上很核心的两个能力。
InfoQ:“数据虚拟化引擎”在整个大模型技术的发展中扮演了一个什么角色?
何昌华:这样的一个数据虚拟化的引擎在我们分析的范围以内,它是最适合于大模型去迭代并做好业务决策协同者的角色的。不容讳言在整个大模型的生态里面,大模型本身它肯定是最重要的能力。大模型的能力越强,肯定越易做出一个很正确的业务决策。但我们也发现大模型的技术本身可能无法处理如此大量的结构化的数据并做精确的计算后来辅助决策,它更多是提供一个逻辑思考的能力。当然这个逻辑思考的能力,需要有语言把它训练出来。本质上,它是在根据企业数据在去做决策的时候提供的一个逻辑思考能力。
关于企业数据本身,它应该提供计算、存储等一些多样化的能力。所以我们认为数据虚拟化引擎是最好的、能够去跟大模型对接的数据工具之一,它能够帮助企业把你的把数据资产完全统一管起来,并且能够加速计算,同时能够跟大模型做好非常充分的交互。
InfoQ:所以您觉得“数据虚拟化引擎”是一个很好的与大模型技术对接的一个工具?
何昌华:是的,我觉得两者相辅相成。
InfoQ:关于数巅的另外一个产品“大模型应用框架”的主要特点和优势是什么?它又是如何支持大模型训练和部署的?
何昌华:大模型的应用框架,本质上我们是想打造一套自己往前能够自我迭代演进的大模型的系统。就像刚刚说的,对大模型而言,我们更多的是用一些开源的大模型做一些微调,我们并没有真正去做一个基础的大模型。但是我们认为一个大模型要在企业内部要成为一个智能的、数字的人,或者帮助做智能角色的助手的角色的话,它一定是需要能自我迭代的。否则的话这个模型很快就会过时,因此它需要能自我迭代。自我迭代的过程在企业内部如何建立起来?以及包括自我迭代需要跟很多业务场景落地,可能需要跟业务场景上的系统打通,它就可能需要连接上各类数据,也包括如何驱动各种自动化的工具来实现这样的业务决策。其中有很多工作,我们这个框架希望能把此类工作沉淀下来后结合我们的大模型以及一个数据虚拟化引擎,这样企业就有了一套完整的,相当于是大模型能够落地,并且能够往前演进,在各个场景下能够快速落地的一套解决方案。
InfoQ:“大模型应用框架”在大模型应用中有没有优秀实践可以分享一下?
何昌华:目前已有若干实际案例,这也是我们觉得这样的框架很有意义的原因。我们发现在这个下面,与客户沟通的过程中当我们听到他们有某一诉求时,用这样一套框架去搭配另一个。这种业务场景落地很迅速,基本均以周记,即几周时间你所需的业务场景就可以快速落地了。
其中有若干例子,比如有客户会说我有一堆指标资产,你能否接入它们?同时我拿自然语言说一句话,你就能够把对应的资产给我找到,这个情况下我们就用虚拟化引擎去对接其资产是很容易的,然后去部署一个我们微调过的、开源的大模型,跟着这套框架很快就打造出来这样一个体系,我们叫做智能的指标体系。
InfoQ:您如何看待人工智能和大数据领域的安全和隐私问题?数巅科技有什么措施来保护这些信息?
何昌华:这是一个很好的问题。包括安全隐私类、伦理类问题,这都是现在大家非常担心的,我觉得完全可以理解。
我对这个问题的看法是,首先这肯定是我们需要正视的一个问题,包括我们遇到很多企业就确实存在它们很多数据不能跟公有数据一起去被大模型所训练(的情况),这也是为什么我们觉得有一个企业内部的独立的数据系统可以更好地去管控。
同时包括大模型训练的很多数据,就算在很多数据里面,它也需要做好一些安全性的控制。包括让大模型不要学到很多负面的东西,就像教小孩一样,此类一些区别性的对待,我觉得这都是很关键的一些举措。在我们数巅,我们希望在企业内部能够把数据跟通用大模型的能力隔离开。
大家可以看到,譬如在我们的数据虚拟化引擎里,我们会对数据的权限控制得很严格。我们可以到“行、列”的级别都在控制数据访问权限。当我们去调用大模型的时候,我们可以决定调什么大模型,以及把什么样的数据传给它,这都是有一个非常好的总控的。所以这一块我们是非常关注的一个问题。
InfoQ:确实是,目前感觉数巅在安全隐私这块也关注的较多。那您觉得除了安全问题以外,大模型在未来的应用中还有哪些风险和挑战?
何昌华:具体来说的话,模型展现出了很强的能力。因为我们可能在一些金融行业,应该说是在对安全要求比较严格的一些领域里面,我们发现大模型可能除了大家经常说的错觉,有时它也会出一些错误的结果,此类问题之外,可能最需要解决的是可控性的问题。大模型目前的输出结果,因为跟你的上下文相关,所以有时你会发现即便是同样的一个问题,你问它两次,它会给出你不同的答案。我觉得在普通的对话中其实关系不大,但当我要做一个很 critical 的业务决策的时候,这种情况我是不能允许的。我问同一个问题,你肯定应该给出的是同样的一个建议。
在我们数巅,我们也在想办法去解决这类问题。事实上我们发现让大模型把这个执行计划分解的越细,对微小的执行计划我们的可控程度越高,我们能够逐步达到一个相对比较可控的利用大模型智能的一个输出。这个反正也在探索的过程中,但这个我也觉得会是在大模型未来发展过程中,它真正会有非常广泛化的应用。打个比喻,像我们评价人一样,要让我觉得一个人靠谱,肯定我每次问他一个问题,他告诉我的是同一个正确答案,而不是说每次都不一样。我觉得大概可以这样来比喻。
InfoQ:随着技术及企业业务的发展,您觉得未来企业在数据处理方面将面临的最大问题是什么?数巅科技是否已经在准备应对方案?
何昌华:现在企业经过了这么多年的发展,往往他都有了自己的一套系统,或者甚至是不止一套。我们能够看到很多企业从最开始的数据仓库,到基于大数据的解决方案,到后来的实时,到后来的在线分析。在很多企业内部,它是有很多这样的系统一路发展过来,他们面临的很大问题就是这些系统都是割裂的,从而导致存储是冗余的,导致很难操作一些系统。在这样一些企业内部,他们肯定会希望把所有的东西能够统一地融合到同一套体系里去。
所以,数巅的“数据虚拟化引擎”也是希望为企业提供这样一个选择。当然这个融合的方式可以有多种,可以是数据中台的方案,也可以是其他引擎方案。从大模型角度出发,从怎么去更好地支持未来的数据智能的角度,这是我们相对思考的多一些的内容。
对于我们的产品而言,当我把“数据虚拟化引擎”架在企业的很多套体系的上层的时候,你可以去访问到它所有的数据,对于计算速度较慢的数据,引擎会将其预先拖到自己的缓存中,从而加快计算速度;对于计算速度较快的数据,引擎会直接将请求发送给数据源。有一些它计算得非常快的,我就直接会把请求发给他,在我们内部都有这样的一套自动判断的机制。
所以本质上数据虚拟化引擎,相当于是建立起了这样的一个用户访问数据的一个桥梁。只不过以往大家谈到数据虚拟化这一层就会做得非常的薄。那个时候有一个概念叫 data federation,就是数据联盟、联邦查询、数据联邦,但是那个你做得太薄以后,你就很难确保它能够实现高效的访问。我们相当于是把这个再往前又迈了一步,做的有自己的缓存策略,有自己的智能优化的手段,有自己智能的内核在那里控制,从而让它做到极为高效地来解决这个问题。如果数据虚拟化引擎在一个企业内部能够将其规模充分利用起来,那它可以帮助企业做数据诊断的工作。但同时它到第二个阶段,直接用我们的引擎去访问数据的时候,它也可以帮企业统一它所有的数据体系,提供一个统一的、给业务数据的一个视图。
InfoQ:您理想中企业数据治理的未来是怎样的?数巅科技的下一步技术迭代方向是什么?您是否有信心达到“理想中”的未来?信心来源于哪里?
何昌华:肯定是有信心的,正是因为觉得这个理想有实现的可能才会去尝试。我们的理想是在一个企业内部,通过我们的产品能够充分地把数据能够管好、用好,能够跟大模型深度的协同起来,为企业提供智能的业务决策能力。
我觉得这里面是一个很大的体系,在这其中,我们可能会在数据方面提供更多的价值。有一些公司可能是在做纯粹的大模型,这两者是互补与协作的一个关系。
在数据这一块,我们从最开始一直有一个比较朴素的理想,我们那时候在讲数据自动驾驶这件事,就是说我们认为在一个企业内部,当用户、业务要用数据的时候,他只应该关注这个数据究竟是什么意思?比如说我要用每个人的消费额度,或者我要用一个什么样的数,这个东西我觉得是他应该关注的,其他的都应该是自动把它解决掉的,我们把它叫“数据的自动驾驶”。像今天也有一位嘉宾老师分享到了,比如说自动驾驶从 L1 到 L5,以前的数据我觉得有点相当于是 L1、L2 这样的,或者最多到 L3 这样的。我们可能有一些引擎的能力越来越强,但是用户还是需要去关注所有的事情,我们希望做到的就是用户完全不感知底下的东西,像“我坐上车只要报一个目的地,这个车就会自动开到那”。我们目前在不停地摸索这个过程。
评论