过去一年多,RAG(检索增强生成,retrieval augmented generation)正成为大数据与 AI 融合的“新宠”。想象一下,当你用 AI 助手快速总结论文或分析数据时,背后可能已经是 RAG 技术在默默发力。
显而易见,随着生成式 AI 如 ChatGPT 的兴起,“大数据 +AI”的热度不断飙升,特别是在 RAG 技术的加持下,它们的结合为企业创造价值的潜力正逐渐被认可。
不过,技术的发展总是伴随着质疑和探索。虽然很多人看到这股潮流的迅猛发展,但也难免心生疑惑和不安:大数据和 AI 的融合到底是不是又一轮泡沫?它所谓的价值是什么?具体要怎样才能借助 AI 与大数据来提升竞争力?RAG 为什么这么火爆?
带着这些疑问,日前极客邦科技创始人兼 CEO 霍太稳与腾讯云副总裁、腾讯云大数据负责人黄世飞,Elastic 大中华区副总裁张君侠展开了一场对话。本文基于本次对话中的讨论整理而来,深入探讨“大数据 +AI”的真实价值、RAG 技术如何从这浪潮中突围,希望能为大家应对这一波技术变革提供一些启发。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
1 Data 加 AI 真有价值?
对于屏幕前的你来说,当在电脑端想要搜索一些知识点或寻找答案时,你是会选择传统搜索引擎,还是像 ChatGPT 这样的 AI 平台?同样地,当你希望能快速了解一篇论文的要点时,会不会直接让大模型帮你做个总结?
从 C 端用户的反馈来看,通用大模型无疑已经逐渐渗透进日常工作,特别是在那些比较简单、重复性的任务上,AI 的效率优势显而易见。
不过,这只是 AI 大模型的其中一面。在企业级应用、专业性更强的 B 端场景下,大模型是否同样带来效率提升呢?
我们倾向于认为答案是正面的。尤其是在 RAG 技术的推动下。RAG 正在成为数据 +AI 的主流应用方案。根据 InfoQ 的统计,RAG 技术在今年的多场技术大会上成为了焦点之一。而且从 arXiv 上与 RAG 相关的文章数量来看,年初时还比较少,而到了年中,相关研究已经呈现显著增长,几乎每天都有新论文发表。这说明,RAG 技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。
黄世飞指出,过去很多企业虽然积累了大量数据,但未能充分利用它们。如今,大模型技术,尤其是结合 RAG 解决“幻觉”、私域数据使用等问题,便可以有效提升这些数据的应用,解决企业在生产和服务中的实际问题。
张君侠也提到,大模型的价值已经逐渐被全球范围内的企业认可,越来越多的项目开始落地,企业纷纷试水 AI 和数据的结合,探索它们能带来的效率提升和业务价值。但在实际应用中,企业也遇到了一些难题,主要集中在具体场景的落地和数据的处理方式。他强调,数据仍是 AI 应用的基础,无论 AI 模型多么强大,数据的质量和有效性决定了其能否在实际业务中创造真正的价值。
2 为什么大数据“不够火”?
大模型很火、AI 很火、RAG 也很火,但大数据技术本身却似乎没有那么火。
“大数据依然非常重要,只是目前它被大模型的光环所遮盖。”黄世飞表示,虽然 C 端用户更关注体验和产品,但要构建一个好的大模型,算力、算法和数据依然是三大要素,而数据的收集、处理和清洗仍是关键,很多公开的大模型没有对外披露如何处理数据,这部分的工作往往被忽视。
从企业和市场的角度来看,业界常讨论的“AI for data”或者“data for AI”,也不会是一个“谁主导谁”的问题。数据和 AI 是相辅相成的。大模型的性能不仅依赖于 AI 的算法和算力,要产生好的 AI 模型,首先还是需要大量且高质量的清洗数据。有时候,一些较小的模型,尽管参数规模不如大的模型,但因为数据质量高,表现反而更好。
同时,AI 的发展对大数据技术提出了新的要求,特别是在云原生和弹性计算方面。以大模型训练为例,正常情况下只需几百核的算力,但在处理大规模数据时可能需要扩展到几万核,对大数据系统的弹性能力提出了非常高的要求。此外,随着数据量的增长,降低成本和提升存储性能也是大数据领域未来发展的核心。而这正是黄世飞领导的腾讯云大数据部门的工作重点,给企业提供一个轻快易用的智能大数据平台满足这些需求。
“企业仍在不断寻找利用好这些数据的新方法,数据量的爆发只会让这个过程加速。没有过去的大数据技术,就不可能有今天的大模型。”张君侠补充道。
总之,大数据从未远离,它始终是 AI 背后不可或缺的支撑。无论是过去、当下,还是未来,数据的管理和应用仍然是核心。
3 为什么数据质量很重要?
大模型本质上是通过数据训练出来的网络,网络中的权重反映了数据的知识结构。因此,大模型本身就代表了数据与 AI 的融合。
要训练出一个好的大模型,数据的质量至关重要。通常需要先收集大量数据,可能达到几十个 PB,但经过清洗和去重处理后,实际用于训练的数据可能只有几个 T。而这个过程十分关键,因为数据量越大,对算力的需求就越高,数据清洗则可以降低计算资源的消耗。
从技术流程来看,数据从收集、清洗到用于模型训练的每一步,都离不开大数据系统。腾讯云提供了从数据的收集、处理、开发到训练的全流程支持,确保数据与 AI 深度融合。通过这套方案,开发者和企业可以更便捷地训练出他们所需的模型。
而从另一角度看,模型训练完成后,AI 反过来也能帮助优化大数据分析。黄世飞表示,过去,他们需要依赖经验去诊断大数据系统中的问题,但现在,AI 可以通过分析日志和诊断信息来辅助判断。以前可能使用规则引擎,今天大模型让 AI 能够更灵活地处理大数据的复杂问题。
4 企业如何更好地应用 AI?
实际上,不管是制造业还是其他行业,AI 的应用都依赖于数据平台。比如,生产中的每一条数据都可以视为一个标签,通过 AI 挖掘这些标签与其他数据的关系,就能生成可操作的商业洞察。无论是 AIOps、BusinessOps,还是制造业中的生产优化,AI 都能通过数据分析帮助企业提升效率和决策能力。
张君侠进一步解释,AI 还可以处理复杂的操作流程和知识管理。过去,工业领域的操作人员需要依赖手册查找机械操作步骤。如今,通过大模型,AI 可以有逻辑地给出精准的操作指令,减轻操作人员的负担。
此外,数据平台的核心在于如何高效导入、处理和展示数据,而 AI 也能够显著提升这一过程的效率。黄世飞举例提到,过去,理清某个数据字段的血缘关系是一项复杂的任务,而现在 AI 可以迅速梳理出数据的来源与关系,提升开发效率。此外,AI 还能帮助自动检测代码错误,大幅提高开发者的生产力。
未来,数据平台中很可能会引入 AI 助手,进一步辅助开发者完成数据分析、优化数据处理流程,这将是 AI 赋能数据平台的一个重要发展方向。
在讨论企业如何更好地应用 AI 时,黄世飞建议,如果企业已经积累了一定量的数据,可以从小模型或中型模型入手,利用 RAG 方案提升业务效率。如果企业在技术能力方面有限,也可以借助业界的 SaaS 解决方案,从小场景入手,逐步引入 AI 和数据分析技术。
张君侠则补充说,传统企业的数字化转型很大程度上取决于文化的转变。如果公司能够将 IT 视为核心资产而非单纯的成本,就能更好地应用数据和 AI 技术,提升整体的业务竞争力。
5 AI+Data 能否超越 Excel
随着 AI 和数据技术的深度融合,开始出现这样的声音:是否会有一个工具能够超越 Excel,成为数据分析的“新王者”?
黄世飞认为,这是完全有可能的。不可否认,Excel 是一款非常强大的工具,几乎可以处理各种类型的报表和分析任务。但是,它的操作门槛较高,用户需要对各种函数有深入的了解,才能真正发挥它的全部功能。对于许多非技术用户来说,这是一个巨大的障碍。
“未来的 AI 可能会通过简化这些复杂的操作过程,让数据分析变得更加简单直观。”黄世飞表示,AI 可以通过自动化生成分析过程来帮助用户。用户只需要提出他们想要的结果,AI 就能根据需求选择合适的函数和方法来完成任务。这样的工具将不再依赖用户的专业知识,而是通过 AI 的智能支持,极大降低了使用门槛。
除了操作门槛,Excel 的另一个局限性在于它的性能限制。随着数据量的增加,Excel 在处理大型文件时往往会变得非常慢,甚至会导致文件崩溃。而如今,数据量的爆炸式增长已成常态,几百兆甚至上 GB 级别的文件已经不足为奇。
云计算有望解决这个问题。云上有强大的存储和计算能力,处理几百 G 甚至 TB 级别的数据都不在话下。如果未来能开发出类似“云 Excel”的应用,将数据存储在云端,并通过云计算来处理,那就能够打破当前 Excel 的数据量限制。
因此,未来的应用可能通过两个关键途径超越 Excel:一是通过 AI 简化数据分析的过程,让用户不再需要熟练掌握复杂的函数和操作;二是通过云计算扩大数据存储与处理的能力,打破当前 Excel 在数据量和性能上的限制。随着数据量的持续增长,未来对这种工具的需求也会越来越强烈。
6 为什么是 RAG ?
大模型的“幻觉”问题,指的是在复杂逻辑推理中,模型生成的结果可能与真实情况不符。而 RAG 的引入,成为当下解决这一问题的重要技术方案。
黄世飞指出,RAG 的优势不仅在于解决“幻觉”问题,还包括快速更新知识库和弥补专业领域数据不足的问题。
解决这些问题的过程实际上涉及数据的向量化。向量化本身是一个复杂的过程,需要将数据转化为向量形式。许多现代的数据仓库和数据库都支持向量化,而与 Elastic 合作的优势在于其数据生态系统支持直接通过内置的能力完成数据的向量化处理,用户无需导出数据到其他向量数据库,对于混合检索有天然的优势。
他以腾讯的微信读书项目为例,用户可以通过标记文字自动获得相似观点的推荐,过去这个功能是通过传统的文本检索方式实现,但有时候文本检索并不能获得最佳结果。向量检索则可以提供更好的推荐结果。同时,通过腾讯云 ES 的一站式 RAG 系统不仅能提高检索的准确性,还大幅降低了资源消耗——从原来的纯内存 400 台 64G 机器下降到 30 台。
除了探索应用,腾讯云也在积极参与 RAG 技术标准的落地。今年早些时候,腾讯云 ES 参与了中国信通院组织的检索增强生成(RAG)技术专项测试,并率先完成全部测试内容,展示了其在向量化处理和混合检索方面的能力。此外,作为核心参编企业之一,腾讯云参与了《检索增强生成(RAG)技术要求》标准的制定,与业内专家共同推动了这一技术标准的落地。
张君侠补充道,大模型有时候无法控制返回的答案,因为它太智能了。这时候,RAG 可以帮助他们构建自己的私有知识库,确保大模型生成的答案符合企业需求。当然,有人可能觉得这是对大模型的限制,但对于企业应用来说,建立一个安全、可靠的知识库是至关重要的。我们通过 RAG 技术,帮助客户将他们的知识库构建在 ELK 系统中,确保了数据安全和答案的准确性。
展望未来,黄世飞认为,不同场景对向量化的需求不同,因此作为技术服务商也需要支持更多样化的 embedding 技术,才能更好地应对多样化的场景需求。
7 数据分析门槛降低?RAG 是否更适合专业人士
过去,生成报表和进行复杂数据分析往往需要专业的技术能力。而如今,AI 与数据的结合让用户可以通过自然语言完成数据分析,大大降低了数据分析的门槛,尤其是对非技术背景的用户而言,这无疑是一种便利。以腾讯云的 ChatBI 为例,这款基于大模型构建的智能数据助手,通过对话即可生成图表和分析结论,简化了繁琐的数据处理步骤,让更多用户能够参与到数据驱动的决策过程中。
然而,尽管像 ChatBI 这样的 AI 工具让数据分析变得更简单,考虑到 RAG 技术的投入和成本因素,眼下似乎更适合专业人士使用。AI 大模型的普及是否能真正降低数据分析的门槛?
张君侠认为,RAG 技术的确已经讨论了一段时间,随着大模型的普及,RAG 的应用越来越广泛。尤其是在利用 AI 进行数据检索和生成时,RAG 提供了极大的便利。不过,高昂的专业服务费用仍是一大痛点,许多客户都提到这是他们面临的挑战之一。
如果大模型技术能够进一步普及,并且降低使用成本,接下来就会有更多非专业用户能更容易地使用这些技术,而不仅仅局限于专业人士。“Elastic 一直致力于为企业提供强大的数据分析解决方案。我们与腾讯的深入合作也表明,大模型技术的应用正在加速推进。”
8 开源与大数据
腾讯云长期以来在 Elasticsearch 项目中贡献了大量代码,最近 Elasticsearch 官方亦特别发文感谢腾讯云对开源社区的贡献,这也体现了开源社区在大数据发展中的重要作用。
“迄今为止,腾讯云在 Elasticsearch 项目中积极参与,提交了 204 个 PR(Pull Request),其中有 150 个已经成功合并到 Elasticsearch 的代码库,是 Elasticsearch 社区目前已知的第三方公司维度最高的贡献水平,这不仅彰显了腾讯云在技术上的强大实力,也充分展示了他们对开源社区的深厚承诺。”
回顾大数据的 20 年历史,我们可以清晰地看到,开源与大数据的成长紧密交织,推动了彼此的进步。
黄世飞提到,早在 2000 年代初期,虽然大数据的概念已经提出,但技术实现还不成熟。当时传统的数仓分析在处理较小的数据集时还能勉强应对,但面对日益增长的互联网数据量,传统数仓显得力不从心。正是在这个阶段,雅虎等公司通过开源引领了大数据的革命,Hadoop 等项目的诞生开启了大数据时代。
从 Hadoop 的离线批处理到实时处理技术的兴起,Spark Streaming、Storm、Flink 等开源项目相继涌现,推动了大数据应用的快速迭代。开源社区的力量让这些技术得以迅速演进,企业因此能在短时间内应用最前沿的工具。黄世飞指出,虽然早期闭源开发可能会带来一些短期优势,但开源社区的协作力量不容小觑。开源项目的迭代速度往往能超越闭源系统。
近年来,腾讯云始终贯彻“开源开放”的理念。黄世飞表示:“坦白说,我们很多能力是从开源社区汲取的。当然,我们也做了很多改进,尤其是在适配云原生和增强方面,从服务过程中得到了客户的认可。”他进一步阐述道,“饮水思源,我们也希望回馈社区,这也是我们大数据体系的基本思路。既然我们从中获益,那么我们就应该把一些能力反馈给社区。”
除了 Elasticsearch,腾讯团队还在多个开源项目中积极贡献代码。黄世飞强调,腾讯云愿意继续坚持这条开源之路,和全球的开发者一起推动技术进步。
9 数据分析市场在本土和海外有何不同
在国内市场,企业在选择数据分析产品时,最关注的往往是成本和投资回报率。许多企业会优先考虑自建系统,如果外部产品的成本高于自建,他们可能会选择放弃购买外部产品。因此,确保产品的成本优势,是很多服务商设计产品的首要任务。
此外,国内企业客户对服务的即时性有着很高的要求。他们习惯于通过即时通讯工具获得服务支持,并期望遇到问题时能够迅速得到回应。相比之下,海外客户则更习惯于通过提交工单或邮件的方式获得支持,也更习惯通过阅读详细的文档来解决问题,如果文档解决不了,才会进一步寻求支持,所以文档的完善、本地化和英文化也很重要。
同时,由于海外市场的企业代码能力很强,他们更倾向于通过 API 将外部服务集成到自建平台中,而不是依赖官方的控制台,因此产品模块要足够灵活,才可以通过 API 进行高效对接。
10 大数据 +AI 时代,人才何去何从
“大数据 + AI” 快速发展,企业面临着技术变革带来的挑战,员工的职业发展也因此充满了更多的不确定性和机遇。如何在大数据和 AI 时代下,抓住机会提升自我,是许多职场人关心的话题。
对此,张君侠认为,不安定的环境往往是学习新技能的最佳时机。他强调,在技术变革下,最重要的是敢于走出舒适区,主动学习那些你尚未掌握的技能。无论是 IT 技术还是其他领域,个人和公司的成长都发生在不安稳的状态下。因此,面对大数据和 AI 技术的不断进步,不要害怕新技术,反而要主动去掌握它们。并且不要等别人先尝试,要成为第一个行动的人,“to be the leader,not the follower。”
黄世飞从另一个角度探讨了大数据和 AI 技术对人才培养的实际影响。他指出,今天的学习门槛相比以往已经大大降低。过去可能需要花很多时间买书、看视频,而现在,AI 技术本身就能帮助我们更有效地获取知识。例如,大模型可以快速搜索文献、资料,极大地提升了学习效率。因此,学习条件的提升意味着我们更有机会掌握新的技能,关键在于是否愿意付出时间和精力。
除了学习,黄世飞还分享了他对职业发展的看法。他认为,艰难的环境反而是磨炼个人心智的好时机。“在困难时期,很多人会选择放弃,但如果你能坚持下来,等到形势好转时,你会发现机会更多。” 他建议在艰难时刻保持耐心,不要急躁,利用这段时间积累技能,等待机会的到来。
评论