写点什么

不要只盯着 Agent,AI-Ready 的数据底座才是 Chat BI 的关键

  • 2025-04-24
    北京
  • 本文字数:5204 字

    阅读完需:约 17 分钟

大小:2.63M时长:15:17
不要只盯着Agent,AI-Ready的数据底座才是Chat BI的关键

2025 年 4 月 22 日,Aloudata大应科技自研的 Aloudata Agent 分析决策智能体首秀上线,这是一款基于 NoETL 明细语义层、以“万数皆可问”为目标的 Chat BI 智能体。

不得不说,“万数皆可问”听起来就很爽。

 

众所周知,Chat BI 在数据查询中面临诸多挑战,例如数据覆盖度不足、口径不一致导致的准确性问题、性能不稳定或不可控的查询响应问题,以及数据越权或泄露的安全问题。

 

因此,这个赛道内一直存在诸多企业试图解决这些问题,“Data+Agent”的产品形态下也有众多解决方案。那么,这类解决方案应该如何选型?“万数皆可问”的能力到底来自于哪里?对于常年扛着“数据包袱”前行的企业来说,该方案是否可以无损接入?

企业数据分析 Agent 落地的不同路径

如今,数据分析的重要性无需多言,所有企业都试图“榨干”数据的一切价值。

 

从“依靠 IT 人员通过代码开发来获取数据洞察”的传统 BI 时代到“依靠数据分析师+IT 提前加工的各类宽表制作报表”的敏捷 BI 时代,再到如今我们所希望的“人人都可通过对话的方式进行数据分析”的 Chat BI 时代,产品形态对用户而言越来越友好,但具体到解决问题的能力上还是需要仔细甄别。

 

目前,企业数据分析 Agent 落地大致可分为如下三种路径:

一是 NL2SQL(自然语言到 SQL),目前很多数据库厂商、中台厂商和引擎厂商在探索这条道路。数据仓库的表本身不具备业务语义,这导致很多信息无法让大模型更好理解,比如如何定义有效订单、活跃用户等概念。因此,该路径需要解决数据和业务语义对齐的问题、大模型根据问题更加准确地锁定正确的表以避免查询性能低与资源浪费的问题等。

 

二是 NL2DSL2SQL(自然语言到领域特定语言,再到 SQL),目前有很多 BI 厂商选择该路线。该方案将 BI 数据集和报表作为业务语义的知识库以及查询数据源,大模型对自然语言进行意图理解之后调用 BI 工具,由这类工具生成 SQL 语句进行查询。也就是说,BI 工具在中间进行了一步转换,将需求与业务语义进行结合,再生成特定的 SQL 进行数据集查询。该方案也存在一些需要解决的问题,比如不同数据集之间数据口径不一致的问题,A 部门定义的活跃用户与 B 部门的有差异;分析的灵活性问题,该类产品所能回答的问题受限于数据集和报表的数据范围,语料准备工作量大。

 

三是 NL2MQL2SQL(识别自然语言的意图,智能转换为指标语义查询 MQL 再由指标语义引擎生成可执行的 SQL 语句),面向指标平台的语义层进行问数,这是当前指标平台类型的厂商所选择的路线。相当于将第二种路径中的“BI 工具”更换为“指标平台”。指标平台解决了数据口径不一致的问题,从企业全局视角看单一指标只会存在一种定义,比如用户活跃的定义就是近三个月登录平台的用户,如果不同业务之间存在不同的定义,那就从命名上进行区分。同时,这种路径在数据查询性能和安全管控方面还能提供有效保障。

 

大致判断下,我们就会发现第三种路径更为可靠。但是要想实现这种路径的顺利落地还需要做很多工作。而且,技术路径和产品形态都可以被模仿,但如何保障数据分析类 Agent 产品的问数效果?以及其核心壁垒到底是什么?

路径可学,产品可抄,企业知识库才是数据分析 Agent 的核心壁垒


数据分析 Agent 类产品能不能用好,关键在于数据底座是否 AI-Ready。

 

过去十年,数据仓库、BI 工具、指标平台在企业内部均有不同程度的落地。当 DeepSeek 的出现让大模型平权,越来越多的企业试图借助 AI 的能力进行数据分析,但是我们需要让 AI 理解我们的业务和数据。过去,我们的 IT 系统、软件和数据更多是以人为主的角度构建的,而现在我们需要让 AI 可以更好地理解和获取数据,这就是数据底座 AI-Ready 的释义。同时也是指标平台爆发式增长的原因之一,指标平台的语义引擎是 AI 时代数据可理解、可应用的根本。

 

在 Aloudata 看来,企业要实现真正的 Chat BI 和繁荣的智能体生态,关键在于拥有“好数据”,而不仅仅是部署大模型。Aloudata 联合创始人 &首席产品官肖裕洪曾表示:“我们希望通过一个强大的 NoETL 数据底座,为上层的 Aloudata Agent 提供更完整的数据覆盖、更精准的数据语义、更强大的查询性能和更可靠的安全保障。”

 

为此,Aloudata 通过 Aloudata CAN 指标平台(自 2023 年底推出之后获得了业界的广泛关注和积极反馈)和 Aloudata AIR(国内首个逻辑数据编织平台)的深度融合,已经形成了一个路径更短、成本更低、自动化程度更高的 NoETL 工程体系。

 

为什么这一融合在当前时间点如此重要?因为随着大模型和智能体的爆发,企业对数据就绪速度的要求显著提高。业务侧的需求不再局限于高度复用的场景,许多一次性或临时性的需求也需要快速响应。数据编织(Data Fabric)借助数据虚拟化技术达成轻量级数据集成与准备、按需物化的效果,是 ChatBI 快速、低成本的数据集成准备的理想方案。

 

更重要的是,Chat BI 的成熟依赖语义层技术的突破——既要理解业务意图,又要动态适配数据模型,同时保障查询性能。而基于明细数据的语义层所构建的企业知识库才是企业数据分析 Agent 的核心壁垒

从这张图我们可以看到,企业知识库构建主要存在三种方式:基于报表的语义层、基于宽表模型的语义层、基于明细数据的语义层。其中,基于报表的语义层和基于宽表模型的语义层均存在明显弊端:前者是很多 BI 厂商的方案,BI 本身更多是一个数据分析的应用工具,依赖于数据集进行分析,虽然包含了一些业务语义,但无法保障数据口径一致性,容易导致问数结果出现歧义,也因为无法覆盖全部明细数据,所以难以支撑灵活的洞察分析;后者是很多指标平台的方案,由于语义层的建模、指标定义能力与查询性能的局限,仍要依赖宽表进行指标的定义与查询,因此无法实现指标和维度的任意组合,分析灵活性大打折扣,且需要预定义全部指标,而现实情况是我们无法穷尽,所以场景覆盖同样有所限制。


相较于这两者,基于明细数据的语义层才是理想的企业知识库。其不仅能够沉淀所有明细级语义,可作为 ChatBI 数据底座实现数据分析场景的全覆盖,还支持指标维度的动态结合和快速衍生,让智能问数更灵活。在这一方面,AloudataCAN 可提供 NoETL 明细语义层,具有“标准化指标定义、明细级语义沉淀、智能化加速路由、查询时灵活衍生”四大特性,基于此,最终 Aloudata 推出了覆盖率与准确性并重的数据分析 Agent。

Aloudata Agent:基于 NoETL 明细语义层的分析决策智能体

据 Aloudata 合伙人 &首席业务架构师杜雪芳介绍,AloudataAgent 是一款以 AloudataCAN 指标平台的 NoETL 明细语义层为底座的分析决策智能体,基于 COT 和 ReAct 的多 Agent 架构,顺利落地了 NL2MQL2SQL 的技术路径,让企业告别“数据幻觉”,通过自然语言即可实现灵活、准确、快速、安全的智能分析,并覆盖了各类复杂分析任务和高阶归因分析场景。

关键创新一:NL2MQL2SQL,实现准确、灵活、快速、安全的智能分析

 

以 NoETL 明细语义层为底座,为 Aloudata Agent 提供了全面、丰富的指标语义知识库,确保基于用户问题意图对齐指标语义,实现精准的指标与维度召回。同时,指标、维度与筛选条件再由指标平台生成准确和可查询的 SQL。而智能物化加速和查询路由改写的能力加持,保障了 AloudataAgent 跨表动态查询性能,亿级数据稳定秒级产出。在数据安全性方面,AloudataAgent 基于指标平台的行列权限能力,可实现精细化的权限管控,确保数据的安全。


关键创新二:基于 COT 和 ReAct 的多 Agent 架构,高效解决复杂分析问题

基于上述技术路径和业内先进的大模型思维链能力,Aloudata Agent 可以实现复杂的分析任务拆解与动态反馈调整,提升复杂分析任务的解决能力,比如用户的问题可能是指标口径查询、数据查询、数据报表生成,也可能是数据归因分析等,可拆解为多个子任务逐步执行,从而高效解决用户问题。依托 NoETL 明细语义层全面、丰富的指标/维度语义信息,Aloudata Agent 更懂数据,更懂业务。同时 AloudataAgent 不止于指标数据查询,还提供智能归因分析、数据解读、深度报告生成等能力,实现从数据呈现到洞察的全面分析技能覆盖。

关键创新三:基于 RAG 和指标语义,提升意图识别的准确性

虽然意图识别这一过程是大模型来完成的,但是为了确保准确度,Aloudata Agent 先行判断用户的意图,区分是口径查询、指标数据查询,还是归因分析或数据分析报告生成。随后,通过向量检索、ES 文本检索以及 KV 关联指标检索等多路召回技术高效检索指标语义层沉淀的指标元数据信息、维度元数据信息、指标血缘关系和逻辑模型关联关系,确保指标与维度的精准召回。在检索到相关指标和维度后,AloudataAgent 会进行二次选择,确保精准定位用户需求。根据问题的复杂度,可能生成一个或多个 MQL 查询。随后,Aloudata CAN 指标平台语义引擎将 MQL 自动转换为底层 MPP 引擎可执行的 SQL,返回查询结果,再由 Aloudata Agent 将查询结果生成符合意图的回答(如指标值、图表或分析报告)返回给用户。

关键创新四:以指标为中心高阶分析能力集成,促进更深度的分析洞见

对企业来说,不同的部门肯定都会有自己的 KPI 看板。是否完成 KPI 只是一个结果,复盘时看结果是否完成是企业经营过程中的重要动作,但相较于结果,企业也应该重视影响 KPI 结果的因素,以便在过程中及时干预、校正,保证最终指标的达成。比如某业务单元的 KPI 是利润,与之相关的营收、成本都是关联因子。比如当营收数据发生异动,企业自然需要进行多维归因。在 Aloudata 看来,这类深层次的、智能的、广泛的归因是非常重要的一个场景。Aloudata Agent 致力于在这一环节为企业提供更广泛和深度的数据洞察。

“Agent+指标平台”如此性感,企业如何“无损接”

数据分析类 Agent 产品再性感,企业接入之前都需要认真评估。

 

如果希望更好地体验 Aloudata Agent 的能力,AloudataCAN 指标平台肯定是需要配套搭建的。(原因在前面已经说的很清楚了,AI-Ready 的数据底座,特别是 NoETL 明细语义层是重要基础)。

 

结合 Aloudata 众多企业用户的使用经验,企业梳理指标体系落地指标平台的过程可以分两条腿走路。一方面自上而下进行核心指标体系拆解和在指标平台的沉淀,另一方面可以通过指标平台满足新需求的定义和开发,通过一段时间逐步补充和完善指标体系。因为企业并非从零开始,往往存在大量历史包袱。由业务需求去触发和建设,然后通过“拔出萝卜带出泥”的方式,像拼图一样逐步完善整体的指标体系更为实际。

 

与 BI 不同,BI 更多是从业务需求出发,自下而上地开发报表。而指标体系则是基于公司的远景或目标,自上而下地拆解目标并确定相应指标,与业务连接更紧密。指标体系也应追求精简而非繁多,以避免随着报表增多形成冗余。

 

从指标管理和存量报表迁移角度来说,企业可以对指标进行分级:核心指标、关键指标、一般指标,明确其重要性和优先级。核心指标对公司战略和关键业务目标有直接影响,需在指标平台上统一管理;关键指标对特定业务领域重要,可按需迁移;一般指标若现有体系能满足需求,则可暂时保留。所以,企业应该根据指标重要性和业务需求,决定是否迁移至新的指标平台,合理分配资源,避免带来额外成本。

 

从业务角度来说,业务肯定希望指标能够实现中心化管理,确保在多个产品、看板和平台中保持一致。因此,在考虑迁移时,企业需要找到合适的时间点。例如,在企业发展的某个阶段,如当下两个月业务相对平稳、落地事务不多、人力相对充裕时,可以利用这一时机推进迁移工作。同时,要结合企业当前的发展阶段、业务重点以及指标的重要程度,制定合理的迁移策略,逐步实现指标的中心化管理和一致性。此外,企业还要综合评估指标在这种自然时间状态下的质量、对业务的影响等因素。

总结

综上,尽管 Aloudata 推出的这款 Agent 并非成熟的终极形态,但它已经具备了一些重要功能和特性,能够为企业提供初步的智能化支持。正如杜雪芳所说:“基于 NoETL 明细语义层作为企业的知识库,加上大模型的能力,我们推出的 AloudataAgent,将是一个更加准确、全面、聪明、友好且安全的分析决策智能体。”

 

第一、自然语言取数、归因、解读,全面的分析场景覆盖。对话即分析,通过自然语言即刻获取数据结果,支持智能数据结果解读,以及智能多维归因和因子归因分析,让企业深层次洞察异常数据波动原因。

 

第二、用户友好的交互式引导与追问,多轮连贯问数更懂分析需求。支持聊天+点选操作,用户友好交互式引导,支持结果引用追问,以及基于历史会话的问题推荐和智能引导,让操作更简单,分析更精准。

 

第三、分析可追溯、可理解、可干预,让企业问数用数更放心。分析过程“白盒化”,数据口径清晰明确,数据结果可信有保障,分析过程可理解、可调整、可干预,让企业管理决策更放心。

 

未来,Aloudata 会继续在产品层和技术层进行优化,并计划推出 Aloudata AI MCP,将数据分析的能力开放出来,让企业可以将数据分析的能力更好地与内部相关的 Agent 进行结合,围绕风控、策略等场景加速内部的 AI 应用开发速度。而对企业而言,也不应只盯着 Agent 这样的产品形态,而更需要关注这类解决方案数据底层的技术能力的差异性,从而选择更合适业务发展的方案。

 

最后,Aloudata Agent 已经开启公测,感兴趣的用户可以扫码体验。



2025-04-24 08:17119
用户头像
赵钰莹 极客邦科技 总编辑

发布了 893 篇内容, 共 669.2 次阅读, 收获喜欢 2690 次。

关注

评论

发布
暂无评论

万字详解AI开发中的数据预处理(清洗)

Baihai IDP

人工智能 机器学习 数据清洗 数据预处理 企业号 3 月 PK 榜

SpringBoot整合RocketMQ,尝尝几大高级特性!

Java你猿哥

RocketMQ Spring Boot 后端 ssm Java工程师

从0到1:学员课时预约与扣课小程序开发笔记

CC同学

从入门到精通:C++ 学习路线指南,附详细学习计划

小万哥

c++ 程序员 后端 开发 学习路线

让GitHub低头认错的这份阿里内部绝密Java面试八股文手册有多强?

Java你猿哥

面试 ssm 面经 八股文 Java八股文

迟来的Offer,至今已有672名学长靠这套Java八股文成功入职大厂

Java你猿哥

Java 面试 面经 春招 八股文

H2存储内核分析一

陈飞

分布式数据库 大数据 开源 数据库内核

智能选路系统与架构

阿里云CloudImagine

云计算 智能选路

量化合约技术系统开发(源码搭建)合约量化技术开发(Demo)

I8O28578624

瓴羊Quick BI、Qlik服务企业,助力企业数据智能化管理

对不起该用户已成仙‖

2023年新疆等级保护测评机构新名单看这里!

行云管家

等保 新疆 等级测评机构

用OceanBase试了一下ChatGPT开源文档问答助手

OceanBase 数据库

数据库 oceanbase

实用fcpx视频剪辑:Final Cut Pro 中文版

真大的脸盆

Mac Mac 软件 FCPX软件 fcpx

Android系统服务DropBoxManagerService详解与实践应用

vivo互联网技术

文件管理 Dropbox 文件上报

分享:FactorJoin,一种新的连接查询基数估计框架

Java你猿哥

数据库 ssm

常见七大SMD器件布局基本要求,你掌握了几点?

华秋PCB

元器件 PCB PCB布局 布局 PCB设计

成长计划知识赋能 | 第九期:渐进式深入理解OpenHarmony系统

OpenHarmony开发者

OpenHarmony

ODC,是另一个 Navicat 吗?

OceanBase 数据库

数据库 oceanbase

焱融科技助力海尔集团上云 加速“智能制造”进程

焱融科技

文件存储 分布式存储 容器存储 分布式文件存储 #高性能

meta魔豹联盟系统开发源码(Demo)技术成熟

I8O28578624

ByteHouse MaterializedMySQL增强优化

字节跳动数据平台

数据库 云原生 Clickhouse 企业号 3 月 PK 榜

别再说被八股文害惨了!GitHub阿里Java面试题库标星145K不无道理

Java你猿哥

Java 面试 面经 八股文 Java八股文

定档3月31日,博睿数据受邀参加DAMS数据智能管理峰会

博睿数据

智能运维 博睿数据 One 一体化智能可观测

RabbitMQ、RocketMQ、Kafka性能为何差距如此之大?

Java你猿哥

kafka RocketMQ RabbitMQ

Github百万收藏!一份《从零开始写分布式服务框架》称霸榜首!

程序知音

Java 分布式 编程语言 java架构 后端技术

从智慧园区、智慧金融到智能制造,我们在华为云上实现了降本增效

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 3 月 PK 榜

过等保堡垒机选择云堡垒机可以吗?有推荐的吗?

行云管家

等保 等级保护 行云管家 过等保

硬核!阿里P8自爆春招面试核心手册,Github上获赞65.7K

Java你猿哥

Java 面试 面经 八股文 春招‘

火山引擎DataTester:构建增长闭环,3-5人即可搭建企业增长团队

字节跳动数据平台

AB testing实战 A/B测试 企业号 3 月 PK 榜

不要只盯着Agent,AI-Ready的数据底座才是Chat BI的关键_银行_赵钰莹_InfoQ精选文章