AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

“数据虚拟化之父”解密数据编织,大模型时代的数据生产力就靠它了

  • 2024-04-28
    北京
  • 本文字数:3454 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:02
“数据虚拟化之父”解密数据编织,大模型时代的数据生产力就靠它了

采访嘉宾|Denodo 的创始人兼 CEO Angel Viña

数据编织:生成式 AI 时代,深挖数据的生产力

 

“无数据,不 AI”,如果说 AI 是火箭,那么数据就是 AI 发展的高质量燃料。最近几年全球企业数智化转型如火如荼,加之如今生成式 AI 浪潮席卷之下,企业对数据的需求空前激增,如何管理数据,释放数据价值成为企业的必答题。

 

在生成式 AI 时代,企业在数据管理过程中面临数据规模庞大、数据多元、数据孤岛、数据治理复杂、数据获取耗时等诸多挑战。很多 AI 项目因数据自身缺陷、难以理解等原因而出现成果与预期不符,最终导致项目延误或成本超支。一项调研数据显示,企业认为有 60%的业务数据是有价值的,而这些数据中仅有 56%被分析,18%的企业认为高质量数据缺乏是其使用生成式 AI 的障碍之一。

 

数据越来越成为生成式 AI 时代的决胜关键,企业需要有新的数据管理技术来应对多重挑战,数据编织(Data Fabric)正是在这样的背景下日益受到关注。


数据编织,简单理解,就是把分散在各个系统中的数据“编织”起来,形成一个统一的逻辑访问层,并对数据进行分析和管理,还为用户提供可视化的数据视图,这样就打破了数据孤岛,用户可以便捷获得数据访问权限,来跨系统查询数据,由此实现将多元异构数据快速交付给数据的消费者。

 

Denodo 是数据编织领域的头部厂商之一,创立于 1999 年,已在逻辑数据编织领域深耕 25 年,其核心产品是以公司命名的逻辑数据管理平台 Denodo 平台,通过逻辑数据编织技术,为企业提供可信、可用、易于理解的数据服务,帮助提升决策效率。

 

Denodo 主张的逻辑数据编织技术包括数据获取、数据处理、数据发现、数据管理和数据访问、智能查询等能力。尤其,Denodo 特别强调“数据虚拟化”作为数据编织的能力核心,这也是 Denodo 及其创始人的起家技术。

 

Denodo 的创始人兼 CEO Angel Viña 被称为“数据虚拟化之父”、“逻辑数据编织之父”。Angel Viña 大学期间的研究方向是实时数据管理。早在 40 年前,他在做一个研究核反应堆容器预测性维护的项目时,遇到了数据碎片化、分散问题,很难统一处理,而建数据仓库要花很长时间,无法满足实时管理数据的要求。传统方法行不通,Angel Viña 想到,建立一个虚拟层来实时连接数据,虚拟层记录了数据的关键要素,将数据实现虚拟化,这样无需像数据仓库那般物理地复制、移动数据,最终让项目周期从 4 周缩短到了 1 周。Angel Viña 提出的数据虚拟化方法奠定了逻辑数据编织的基础。



这一技术突破在 25 年前,Denodo Technologies 正式成立,意义是十分巨大的。放到对数据管理实时性和经济性要求更高的今天看依然如此。

 

与物理数据库、数据仓库、数据湖等相比,上一代数据管理技术更侧重将数据存储到实体系统中,并将不同实体系统的数据迁移到集中系统中去,再为用户提供数据服务,而中间的存储、转化、更新等十分复杂、成本更高。数据编织通过建立逻辑抽象层,对数据封装、打包,屏蔽了分布式数据环境的底层复杂性,将有用的信息编织到一块,并且以合规、安全的方式提供给用户,很好地兼顾了实时性、安全性与降本增效。

数据管理向 AI 进化:Denodo 平台接入 AI 大模型能力

 

数据管理技术与 AI 融合的趋势也越发明显。

 

 Angel Viña 在接受 InfoQ 采访时表示,当前数据管理的一个核心、主流的改变是数据管理流程的自动化。数据管理包括在数据收集、数据迁移、数据可视化等方面都需要大量人力、财力、物力。应用 AI 技术进行数据管理的核心作用就是把“手动的”转化为“自动的”,将一些手动、人工的工作取缔掉,从而在数据获取上提速,缩短数据获取到与用户交互的周期。

 

紧跟 AI 时代的技术演进,早在 4 年前,Denodo 就着力布局 AI,在自家技术与产品上“注入”AI 能力。例如在一年多前发布的 Denodo Platform 8.0 版本,为了优化平台功能和用户体验,该平台的“含 AI 量”十足,具备 AI 驱动的智能查询加速、自动化安全云数据集成等功能。

Angel Viña 介绍,在 Denodo 平台的数据查询和分析速度的提升优化策略上,AI 发挥了很大作用。比如当处理成千上万条、甚至成百万、上千万条查询要求时,AI 要能够通过学习来将流程自动化,还要能优化决策的过程。“我们经常有一句话,过去是人找数(数据),将来是数找人,不用关心数在哪,它会来。”Angel Viña 说。

 

具体来说,当 Denodo 平台收到查询后,后端计算将查询重写为可执行和优化的内容。重写后采用了一些优化策略,优化机制中加入了一些人工智能自动化的技术,AI 会根据过去的经验进行学习,并根据不同的执行者(不同公司后端系统不同)生成相应的优化策略。

 

伴随着以大模型为代表的生成式 AI 技术逐渐起势,Denodo 自去年开始又逐步将生成式人工智能与大模型技术应用到 Denodo 8.0、Denodo9.0 产品体系中,提供自然语言查询、用户建议等功能,将数据管理使用门槛下放的同时提升用户体验。

自然语言查询,降低数据管理使用门槛

 

Denodo 8.0 和 Denodo 9.0 支持用户自然语言查询功能,这尤其对非技术背景的用户十分友好。

 

如果用户想要从 Denodo 平台获取数据,他需要用 SQL(结构化查询语言)来访问,然后平台生成查询。而用上 AI 大模型之后,即使不了解 SQL 的人,只要会中文、英文或其他语言,就能在 Denodo 平台上做相关的查询,加速了用户对数据的访问和采用过程。而且大模型让用自然语言进行数据管理成为可能,降低了数据管理的使用门槛。

 

比如,针对“2023 年,给我带来利润最多的客户是谁?”查询,以往的方式是需要有专业程序员来做 SQL,然后生成相关数据。而现在,用户只需将自然语言输入 Denodo 平台,AI 大模型会自动生成 SQL,然后自动跑系统数据,用户实时就能获得答案。

为用户生成数据建议和提示

 

AI 大模型加持下的 Denodo 平台可以在用户使用过程中为其提出相应的建议。

 

比如,当公司 A 在使用一批数据时,Denodo 平台会给出使用同一数据的其他公司的提示,并说明其他公司使用的合理性、合法性等情况,给出相应的建议。

 

再比如在医疗行业,做创新药研发的研究者想要研制一款新药,一款药研发可能要分析 1 万个药分子,如果市场上已有相关研究,Denodo 平台就会给出提示,这样可以帮助科研人员缩短制药时间。

为大模型研发与落地提供数据基石

 

在大模型研发与应用落地领域,像 Denodo 这样的数据管理厂商也有广阔的“用武之地”。


 

大模型依赖庞大的数据量积累,数据越好,模型效果越好,大模型只有训练数据足够大、高质量和智能,才能够涌现出强大的理解、生成、逻辑和记忆能力。数据规模以及数据质量参差不齐是目前制约大模型发展的主要因素之一。

 

当前大模型的训练数据,多采用互联网上的公开数据,如何提升数据的规模、质量、安全可信、多元等对企业来说十分重要,但同时做到却非一己之力能完成。Denodo 可以快速获取到不同来源、不同系统的数据,将可信的数据提供给大语言模型训练,帮助减少模型幻觉,提高模型生成的准确性和相关性。

 

如今大模型已进入到应用落地的下半场,越来越多的企业开始拥抱大模型。企业拥抱大模型有几种方式,一种是在通用大模型基础上基于垂直数据训练,还有一种是从垂直领域出发,基于通用模型精调建立行业大模型。在落地过程中,企业如何将自有垂直数据与通用大模型结合是最为关键的环节。

 

但要想结合好并不容易。一方面大模型主要基于通用的公开互联网数据,如果到企业应用,有些数据是外部所没有的,将企业内部数据加入到通用模型中,其实需要 Denodo 这样的数据管理平台建立中间层来整合不同的数据源,比如将企业的财务数据、经营数据等内部数据通过中间层与通用大模型的外部数据结合。此外,很多企业重视安全与隐私,“自己的数据不想给别人看,又想占通用模型的‘便宜’”,因此用中间层作连接就是绝佳的平衡之选。

 

在这个过程中,Denodo 通过数据编织(数据虚拟化)和中间层的能力,帮助企业跨越内部数据与大模型之间的 Gap,搭建一个高效、可信的数据桥梁,一边帮助大模型看懂企业数据的业务语义,一边也打消了企业的安全顾虑。

 

未来行业大模型将是大模型落地千行百业的主流方向,而行业 Know-how 就是行业大模型的护城河。但行业 Know-how 需要时间积累,而且一些行业如医疗、能源等知识门槛很高。从这个角度看,做行业大模型的企业与在深具行业经验积累的数据管理厂商结合或是获得行业 Know-how 的快速路径之一。

 

Denodo 在过去 25 年里已服务过金融、保险、制造、高新技术、零售、教育、医疗、能源等多个行业。在这些行业,Denodo 可以将多元的数据连接起来,将通用数据与行业数据对接,结合起来训练大模型,让大模型能在产业纵深处实现价值。


逻辑数据编织用业务语言、业务速度交付数据,释放数据价值,为企业带来新质生产力,为中国数字经济高质量发展提供助推作用。


2024-04-28 18:0915031
用户头像
李冬梅 加V:busulishang4668

发布了 1058 篇内容, 共 671.3 次阅读, 收获喜欢 1216 次。

关注

评论

发布
暂无评论
发现更多内容

云起无垠参编的《软件物料清单(SBOM)发展洞察报告》正式发布

云起无垠

站群服务器租用:为您的多站点网络提供支持

一只扑棱蛾子

站群服务器

秒合约竞猜游戏app系统开发定制源代码部署

开发微hkkf5566

如何用华为云ModelArts平台玩转Llama2

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号9月PK榜

软件测试|Python内置模块使用(二)

霍格沃兹测试开发学社

通过UltraSync减轻主节点负担、提升业务系统性能,AntDB如何做到?

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

AI和社交媒体:改变信息传播的方式

测吧(北京)科技有限公司

测试

软件测试|Python内置模块使用(一)

霍格沃兹测试开发学社

AI和语言翻译:跨文化交流的帮手

测吧(北京)科技有限公司

测试

在Mac上浏览Android设备文件:MacDroid pro最新中文版

胖墩儿不胖y

Mac软件 传输文件 文件传输工具

Arbitrum公链系统开发丨ARB链代币质押挖矿系统开发

l8l259l3365

Pyth

【华秋干货铺】软硬结合板的阻抗计算,你会吗?

华秋电子

PCB

AI和语音助手:智能助手的展露头角

测吧(北京)科技有限公司

测试

AI和智能家居:打造智慧生活

测吧(北京)科技有限公司

测试

AI和安全性:网络安全的挑战与机会

测吧(北京)科技有限公司

测试

机器学习——决策树模型

小魏写代码

迎产业东风,柔性电子供应链企业的机会与挑战

华秋电子

PCB

HarmonyOS应用开发Web组件基本属性应用和事件

HarmonyOS开发者

HarmonyOS

使用br工具备份到local的一些操作

TiDB 社区干货传送门

迁移 备份 & 恢复 6.x 实践

TiDB Serverless Branching:通过数据库分支简化应用开发流程

TiDB 社区干货传送门

达梦数据库接入案例—基于EntityFrameworkCore 6.x

为自己带盐

.net core 达梦 EFCore

小度携手可口可乐,AIGC成就未来3000年时空畅想

新消费日报

软件开发中的资料整理与归档,软件产品开发文档合集

金陵老街

项目管理 文档管理软件

软件测试|Python基础之数据库

霍格沃兹测试开发学社

OpenHarmony系统能力SystemCapability使用指南

OpenHarmony开发者

OpenHarmony

干货 | Elasticsearch Java 客户端演进历史和选型指南

腾讯云大数据

ES

SpringBoot拦截器和动态代理有什么区别?

王磊

Java Java面试题

RTE 领域近期词云统计发布;谷歌开始新一轮「瘦身」计划;使用ChatGPT之后智力提高 50%丨RTE开发者日报 Vol.50

声网

软件测试|Python基础之包的使用和软件开发目录规范及常用内置模块

霍格沃兹测试开发学社

软件测试|MySQL安装最全教程

霍格沃兹测试开发学社

“数据虚拟化之父”解密数据编织,大模型时代的数据生产力就靠它了_数据编织_李冬梅_InfoQ精选文章