生成式 AI 项目越来越多，但数据管理要怎么才能高效进行？

生成式 AI 项目越来越多，数据管理的难度也跟着升级。怎样在合规和隐私保护的同时，保持数据管理的高效？如何优化数据质量，让模型表现更靠谱？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 ProtonBase 首席科学家邵轶琛、矩阵起源研发副总裁赵晨阳、阿里国际/ AI Business 高级数据技术专家李海军，在 AICon 全球人工智能开发与应用大会2024 北京站即将召开之际，深入探讨大模型时代，数据管理与治理的应用。

部分精彩观点如下：

下一个阶段的数据管理，将转变为数据理解的推理过程。
大规模的使用离不开有效的数据管理。
真正的准确性考验在于如何从大规模数据中精细化到特定领域。
数据增广是目前必不可少的一条路径。

在 12 月 13-14 日将于北京举办的 AICon 全球人工智能开发与应用大会上，我们特别设置了【结合AI模型的数据生命周期管理｜ArchSummit】专题。在该专题论坛中，邵轶琛老师将分享《AI 时代，我们需要什么样的数据架构？》，李海军老师将分享《从广泛数据到领域数据：多语言大模型数据研发实践》，赵晨阳老师将分享《使用多模态模型构建适用于 LLM 搜索的数据》。
查看大会日程解锁更多精彩内容：https://aicon.infoq.cn/202412/beijing/schedule

以下内容基于直播速记整理，经 InfoQ 删减。

完整直播回放可查看：https://www.infoq.cn/video/Dvwz8xrTrMQegcGSNBOt?utm_source=home_video&utm_medium=article

邵轶琛：在生成式 AI（GenAI）项目越来越多的背景下，数据管理变得越来越复杂，大家近期在实际工作中或在行业内有遇到哪些新的关注点吗？有没有可以分享的观察或体会？

赵晨阳：随着模型能力的增强，为了使模型展现出其强大的多模态能力，需要为其提供高质量的多模态数据。这导致我们在构建数据库时，不仅要处理标准化、规范化的数据，还要面对客户繁杂多样的数据，这些数据不仅包括非结构化或中等模态的情况，甚至有些内容连人工解读都极为困难。然而，通过人工智能的介入和工程能力的提升，我们能够有效地解析这些数据，并从中提取价值。通过 GenAI 的能力，我们能够帮助企业发掘更多的数据价值。

李海军：传统的数据领域主要处理的是结构化数据和日志数据，有很多成熟的工具，比如阿里的 DataWorks 以及其下的计算存储引擎 ODPS 和 Hologres 等。然而，现在我们在处理大型模型的数据时，面临的数据结构变得更加复杂，不仅仅是文本，还包括多模态数据，如视频和音频等。这些数据的结构和模态的丰富性增加，对计算和存储的要求也随之提高。

在技术处理方面，我们过去主要依赖离线计算和实时计算技术。但现在，我们更多地使用自然语言处理（NLP）和计算机视觉（CV）技术。同时，在为大型模型准备数据的过程中，我们还会利用大型模型本身来处理数据。

邵轶琛：我认为随着 GenAI 的发展，数据管理这个概念在未来几年会逐渐变得不那么重要，取而代之的将是数据理解。数据理解可以分为几个层次：最基本的是人工标注，更深层次的可以进行深度标注，也就是 annotation，而简单一些的标注则可以采用机械化、自动化的标注技术。我们认为，未来不应该是仅仅停留在这些层面，而应该是基于真正理解的自动化标注，也就是将人工标注和自动化标注有机结合起来。理论上，机器应该能够做到我们希望它理解的事情，我们不能教机器去做我们自己都不理解的事情。

因此，我们认为下一个阶段的数据管理，将转变为数据理解的推理过程。这意味着我们需要训练机器在数据理解上去掉标注，去掉那些机械化的过程，从而产生推理性的、高质量的数据。换句话说，我们关注的不仅是数据的状态，还有数据产生的过程。未来几年，有机数据基本上消耗殆尽，人们将更多地依赖于合成数据，也就是从状态转变为过程理解的过程。

邵轶琛：数据管理在生成式 AI 项目中扮演了什么样的角色？我们经常说数据管理会影响模型的效果，但具体到生成式 AI，数据管理在哪些方面会起到明显的作用？

赵晨阳：在讨论生成式 AI 时，我们首先关注的是算法架构的设计。有了架构之后，我们的主要任务是准备数据进行训练。随着 GenAI 向多模态场景发展，数据的多样性和覆盖范围也变得非常重要。如果模型需要处理文本和语音，我们就需要确保数据集中的文本和语音内容保持平衡，以防止数据偏差影响模型结果。

在推理端，非结构化数据到结构化数据的处理过程的准确度也会影响模型在应用层面的表现。因此，数据量、数据标签、多样性、数据质量以及数据清洗和预处理的质量都是我们在使用数据进行大型模型训练时需要考虑的重要因素。

李海军：数据的量级和质量直接影响模型的表现，而大规模的使用离不开有效的数据管理。数据管理和 AI 的关系在于，我们需要从大量数据中进行准确的数据检索，例如在文本数据中找到特定的数学科学数据，或者在多模态领域中找到特定的服饰图片。数据管理需要具备数据检索和数据标签画像的能力。此外，数据管理还需要满足模型训练的需求，包括读写速度、tokenizer 的速度，以及在不同存储计算引擎上的成本和速度的考量。

邵轶琛：在国内，数据隐私和合规性讨论较少，主要与国情和信息管制有关；而在全球范围，隐私计算问题，尤其在医疗和金融行业，讨论较为频繁。随着数据量增大，实时数据处理能力如何突破？传统 AI 在商品推荐中的应用可能会被新技术取代，数据吞吐量、并发量和实时更新成为关键问题。

邵轶琛：在 AI 的大背景下，通常选择什么样的数据平台来支持项目的需求？

李海军：首先，一个优秀的数据平台必须能够支持大规模的数据存储和计算，这不仅包括对结构化和非结构化数据的存储，还涉及到对这些数据类型的计算能力。

其次，数据平台要满足多层次的存储需求，尤其是在 AI 领域。数据平台需要能够支持高速和低速的分层存储计算，以适应不同使用频率的数据和训练需求，确保存储速度能够跟上推理速度，降低系统的响应时间。

再者，数据平台需要解决数据计算问题，管理底层的计算能力，包括 CPU 和 GPU。在大模型时代，数据处理不仅仅局限于传统的数据仓库，而是需要结合 NLP、CV 等算法和大模型的推理能力进行大规模的数据处理。

最后，数据平台需要能够让我们的训练过程更加快速便捷，包括数据的分类检索、tokenizer 生成以及 mix data 的自定义能力。在模型应用阶段，平台需要支持快速高效的数据检索，并且能够将模型使用的结果数据回流，以便更好地评估模型对业务的价值。

赵晨阳：首先，如何在应用场景中将业务系统对接后产生的数据快速反馈到模型中，成为未来训练数据的一部分，这样模型迭代就能更快速地获得数据反馈，进行训练。这对计算层吞吐量和数据处理效率提出了很高的要求。

模型训练是一个系统性工程，不仅仅是单一的数据平台或 AI 领域的事情。很多时候，在训练时可能还会涉及到分布式文件系统的设计。在 AI 时代，我们更多地需要考虑如何将所有与数据相关的组件服务于模型，无论是在训练场景还是推理场景。同时，对于多模态数据的高效存储和检索也是关键。因为未来的模型训练肯定是越来越往多模态方向发展，能够天然提供多模态的存储和查询能力也是非常重要的。

邵轶琛：实时增量训练将成为未来的主流，例如 PEFT 架构，基于 LORA 的增量微调，能够持续改进模型并验证其性能，但如果模型之间差距过大，我们无法判断增量训练是否带来提升或下降。海军提到的系统性工程问题也很关键。如今看到的只是训练和测试部分，真正的应用还在发展中。随着 AGI 的成熟，工程上做对的事情将重塑 AI 和机器学习的应用场景。特征存储是另一个重要问题。在电商推荐中，特征存储的实时性至关重要。随着 AGI 的发展，特征将变成实时注入的嵌入向量，这需要模型理解并转化这些特征，这是一个巨大的挑战。

邵轶琛：项目实施过程中的隐私保护、合规性和实时数据处理等问题也很关键。大家认为在这些方面，哪一块挑战最大？有没有什么特别难解决的问题？

赵晨阳：在处理小模型时，遇到的最大和最麻烦的问题是隐私保护，也就是模型的安全性。这是一个矛盾点：如果对训练数据进行特殊处理，可能会影响模型的训练效果；但如果处理不当，模型可能会在输出端泄露敏感信息，这是我们不希望看到的。目前，我们选择使用合成数据来避免隐私内容的泄露，但这个问题处理起来非常棘手。因为模型在生成内容的过程中是黑盒，我们不能完全控制整个流程，因此也不能确定是否能达到 100%的隐私保护合规。

在训练时，我们会有针对性的措施，比如对数据集中的有毒内容进行保护，防止模型在训练过程中对用户的攻击性或故意启发性提问进行回应。同时，在数据处理时，我们会尽量抹掉隐私内容，并通过合成数据的方式进行替换。尽管合成数据可以在一定程度上避免隐私泄露，但无法保证模型最终不会生成真实的、涉及隐私的内容。目前，我还没有看到特别好的解决方法。

李海军：在我负责的 AI 业务部门中，我们进行了许多业务实战，这些实战对实时数据处理的要求非常高。以我们提供的多语言大模型服务为例，其中有几个核心问题，尤其是降低响应时间（RT）。为了降低 RT，我们普遍采用了缓存技术，并在此基础上发展了面向业务的实时干预能力。

以电商语言翻译为例，我们面临一些特别怪异的词语翻译问题，这些词语如何让国外用户更本地化地理解是一个挑战。比如“踩屎感”这样的标签，中文里大家能理解是指鞋子非常舒适，但翻译成英文时，没有语言模型能够准确翻译。面对这类问题，我们首先通过实时干预能力迅速响应，随后通过数据积累在模型层面进行训练，不断提升模型性能。

在实时数据干预方面，我们实际上是在处理一个实时数据流，将电商的特定知识转换成本地化的准确表达，并使其能够在模型系统工程中实时使用。在推荐系统方面，我们面临的是如何根据用户的查询词推荐商品的问题，这要求我们对实时数据的处理能力非常高。我们在这方面也在进行一些探索。

邵轶琛：我觉得有两个方向，第一个是从商业模式的角度来看，未来每个用户都会有自己的虚拟代理。第二个方向，是推理过程中的问题，尤其在高并发和大促期间，系统如何实时处理海量查询。每次查询时，实时特征库的增量必须通过实时过程完成。随着并发度的增加，这对底层数据架构提出了巨大的挑战，这是一个工程化的问题。我的重点是，今天我们看待“特征”的方式，和过去看待特征的方式有很大不同：过去是提问，而现在是回答问题。对于我们做研究的人来说，这代表了两个时代的分水岭。未来，对不同的业务模式的特征工程支撑将向下抽象成为底层数据架构的更高能力。

邵轶琛：数据的获取和清洗是生成式 AI 的“地基”，它直接决定了模型的表现。大家有没有一些提升数据准确性和有效性的实战技巧或方法？在实际项目中，这块工作是如何优化的？

李海军：业界已经提出了许多公开的方法，如 C4、FineWeb 以及最新的 TxT360，这些方法在文本语言处理方面取得了显著进展。在处理大规模数据时，我们开发了上百个计算算子，用于计算重复率、单词数量、字符符号，检测文本通顺性以及本地化表达等。在处理文档、网页等文件时，我们会灵活组合这些算子，并利用数据平台的调度能力高效完成数据清洗。

在多模态领域，我们主要处理文本、图像和视频的融合，具体包括转换过滤、实体检测、主体检测、世界知识检测以及分割去重等算子。这些方法帮助我们在数据预处理阶段显著提升了数据的质量和模型训练的效果。

我认为大规模训练的准确性不需要那么精准，关键在于保证数据的知识准确性，避免错误信息的传播。真正的准确性考验在于如何从大规模数据中精细化到特定领域，例如，在跨境电商领域，我们需要处理多语言和多模态中的图片翻译等业务，这要求我们从大量数据中筛选出高质量的专业领域数据。提升准确性的方法有两个：一是事前基于算法和规则进行特征检测，避免垃圾数据的混入，进行粗过滤；二是在模型训练实验过程中，不断检验模型在某基准测试上的表现，并反复校验数据。

赵晨阳：在开发 AGI 时，我们可能不会过分关注准确性这一指标。然而，当我们将模型应用于具体场景时，准确性就变得至关重要，需要是可以衡量的。在实际应用落地的过程中，利用大模型的蒸馏技术可以帮助我们针对特定场景，从大模型如 GPT-4 或 Anthropic 的 Claude 系列模型中提取更高质量、有效的数据。这些数据在训练过程中已经经过了各种处理和清洗，因此质量相当高。此外，我甚至可以在前期通过少量的人工标注来获取数据，然后通过泛化模型的知识蒸馏方式，从更大的模型参数中提取相关数据。

邵轶琛：我特别重视数据增广这一环节，尤其是在进行多模态训练和应用时。我认为在实践中，根据不同的应用场景制定不同的增广策略，以实现更好的模型性能和泛化能力是很重要的。

赵晨阳：我很认可，数据增广是目前必不可少的一条路径。

邵轶琛：数据管理不仅是技术问题，也是成本管理的问题。从短期和长期来看，大家在生成式 AI 项目中一般如何评估数据管理的 ROI，是否存在量化挑战？有没有成熟的方法或框架，可以帮助团队合理评估这部分成本与价值？

赵晨阳：作为一家创业公司，我们在成本控制方面非常谨慎。数据价值的量化评估对我们来说是一项艰巨的任务，但我们正通过 NLP 技术和大模型方法对数据价值进行重新评估。我们存储了大量的数据，但这些数据的价值很难量化，同时还需要进行大量的数据清洗和治理工作。我们可以通过大模型的手段来判断数据是否对项目有帮助，是否需要对这部分数据进行管理。不过从长远来看，建立一个数据量化评估的标准仍然非常困难。

李海军：我负责的 AI 业务部门最初并没有过多考虑 ROI，但随着成本的不断上升，ROI 成为了我们必须考虑的因素。

我首先关注的是如何在保证可用性和稳定性的基础上，优化存储和计算技术。面对阿里云每天提供的账单，我意识到每一条数据的存储和计算都是成本。因此，我们开始对数据进行分层分级，合理分配冷数据和热数据、高性能存储和低性能存储，检查是否有长期未被使用的数据被放置在高性能存储上，同时监控 CPU 和 GPU 的使用率，确保没有资源浪费，并提高任务自动化水平。

数据管理的目的是为了更好地服务于大模型训练。我们会评估数据管理到模型训练的效果，不仅看数据成本，还会看在 Benchmark 上的表现提升。如果模型效果有显著提升，那么 ROI 自然较高。例如，我们开源的多模态大模型 OVIS 在 open Compass 榜单上的各项指标不断提升，这表明我们的投入是值得的。

最后，我们会关注模型在业务上的表现，比如语言翻译和多模态应用的表现。如果这些表现足够高，那么我认为投入也是值得的。因此，我的 ROI 衡量标准包括模型在业界通用 Benchmark 上的效果评估，以及在业务领域内的表现，比如带动 GMV 的提升。

邵轶琛：那我们可以归纳出两个主要的框架来衡量 ROI。第一个是数据增益率（Data Gain Rate）。实际上，亚马逊内部也使用类似的方法，用来衡量每批新训练数据对模型性能的提升。第二个是海军在垂直模型领域提到的观点，将数据管理的度量指标与业务目标对接，从而提升了效果。

邵轶琛：展望未来，数据管理与 AI 的结合会有哪些大的变化？期待看到什么样的进展？

赵晨阳：我认为未来数据管理将会更多地融入人工智能技术，特别是在数据自动化治理方面。这意味着从数据质量控制、分类标注到数据生命周期管理，我们将尽量减少人工干预，实现整个流程的自动化。

人工智能的参与还能帮助数据实现跨平台集成，同时结合隐私计算的需求，我们可以利用 AI 技术来遵守 GDPR、CDPA 等法规，自动化监管训练数据和推理数据。这可能涉及到超分隐私和联邦学习等技术的应用。随着人工智能的加入，数据管理可能会更多地调度 GPU 算力，以服务于数据治理平台，这将是一个重大转变，因为传统上数据库存储和计算更多依赖于 CPU 集群。

李海军：我从工业界的角度来看，随着大模型的落地应用，数据管理可能会有三个显著的进步。首先，数据管理与 AI 模型的迭代将变得更加紧密。目前，模型训练过程中数据的紧密程度还不够高，未来数据将更多地指导模型训练，并反馈到数据上进行补充和提升，包括定向数据整理等方面，这种融合将更加紧密。

其次，数据管理平台将显著发展。回顾过去数据仓库时代，从大型厂商如 Oracle 进入中国市场，到阿里云、华为云等云服务商的发展，数据平台的发展一直非常蓬勃。但截至目前，针对 Gen AI 的数据管理平台还不够成熟，市场上也没有一个典型的代表作，我预计未来将出现更加成熟的代表。

最后，数据管理系统将与整个 AI 系统工程更紧密地结合。它不仅仅是提供数据清洗和训练的过程，而是会更紧密地与 AI 系统功能结合，与整个生产链路、实际应用链路、从数据清洗到模型训练、模型上架应用、模型效果评估的整个系统，以及 AI 系统发挥的业务价值等方面结合得更加紧密。

邵轶琛：今天的分享大家从各自的角度，实际上描述的是同一件事——从数据管理的角度来看 AGI。我个人和我的团队都相信，未来 5 到 10 年，所有应用都会是 AI 驱动的应用。作为 AI 应用的基础，数据的消费和知识管理至关重要。因此，我们的使命是将数据管理转变为知识管理。我们相信，未来这个行业的使命也将围绕这一点展开。

创作场景

生成式 AI 项目越来越多，但数据管理要怎么才能高效进行？