百度冯景辉：从数据清洗到安全围栏，深度解析大模型原生安全构建

随着大模型的逐步发展，内容安全问题受到了前所未有的关注。为此，InfoQ 特别邀请百度安全副总经理冯景辉在 8 月 18-19 日的 AICon 全球人工智能大会（上海站）上，分享《百度大模型原生安全构建之路》的主题演讲。本文是对冯景辉的会前采访对谈。

在对谈中，冯景辉提到，大模型的智能性、不确定性和不可解释性为内容安全带来了重大挑战，这迫使开发者在模型设计阶段就必须深入考虑安全性问题。百度在这一领域进行了多项创新实践，包括数据清洗、安全对齐、内生安全技术以及安全围栏等措施，形成了一套完整的全流程安全解决方案。

特别值得一提的是，百度采用了四步法进行数据清洗，并引入代答模型，以提高内容审核的自动化和智能化水平。冯景辉还强调了构建原生安全的重要性，指出通过有监督微调和人类反馈强化学习等技术，可以显著提升模型的安全性和可靠性。

大模型安全的重要性与挑战

InfoQ：为什么要做大模型安全方面的内容，可以看到许多企业现在专心在搞应用，为安全买单的人都是哪些类型的？

冯景辉：过去若干年技术的发展，很少有像今天大模型一样，从技术蓬勃发展的第一天开始，人们就如此重视安全，数据清洗、安全对齐是任何一个大模型在开发之初就必须要考虑的事情，这一方面是由于人们认识到生成式大模型拥有巨大的能量和潜力，必然要在最初就关注他的安全性，另外一方面，监管部门对大模型也是很早就开始关注，我国从去年就颁布了《生成式人工智能服务管理暂行办法》，各个大模型企业也是应相关法规要求，积极开展安全工作。

InfoQ：您能否详细解释大模型的智能性、不确定性和不可解释性如何影响内容安全？有没有什么案例？

冯景辉：在现实生活中，我们经常使用大模型进行文章创作、改写、续写这些任务，但如何避免在创作过程中生成违反社会主义价值观的内容，这是需要模型开发者在模型安全对齐，内容安全架构上进行设计和开发的。很多时候模型具备不确定性，也就是说他每一次生成的内容都不一样，这给内容安全带来了更大的挑战，要求我们的模型安全更好的泛化能力，能够应对大模型生成内容的不确定性。大模型的不可解释性，是指我们几乎无法通过分析准确找到生成不安全内容的全部原因，所以在安全对齐时，我们通常都是通过 SFT 和人类反馈的强化学习这些技术来纠偏。

百度的安全实践与创新

InfoQ：在大模型的训练、精调、推理、部署和业务运营等关键阶段，您认为主要面临哪些安全挑战？针对这些挑战，百度采取了哪些具体的安全措施？

冯景辉：在训练阶段，数据的清洗至关重要，只有更干净的数据，才能训练出更好的模型。百度大模型安全解决方案也提供了一整套数据清洗和评估的方法来应对安全清洗的挑战，通过数据集评估、个人信息和敏感信息脱敏、违规内容删除、数据集质量评估四个阶段形成一个闭环。

在精调阶段，安全对齐至关重要，通过 SFT 和 RLHF，实现人类对齐，可以很大程度影响大模型输出的安全性。

在推理和部署阶段中，模型安全的部署、核心知识产权和数据不被窃取是人们普遍关心的话题。针对这个挑战，百度也推出了百度大模型数据安全解决方案，通过密态数据训练、模型文件加密流转实现了大模型零信任、零改造的全流程解决方案。

在业务运营阶段，模型生成内容的安全性是大家普遍关心的，因其存在一定的不确定性风险，我们所说的不确定性主要是指，即使在相同的输入下，也可能产生不同的输出。这种不确定性源于模型内部复杂的参数和训练数据的多样性。更严重的是，模型有时会生成虚构或不准确的信息，这被称为“模型幻觉”或“事实性幻觉”。例如，模型可能会编造不存在的事件、人物或数据，这对依赖精确信息的业务来说是极大的风险。

另外一方面，模型的安全限制可以通过精心构造的提示词被突破，这种攻击被称为“越狱攻击”。攻击者利用模型生成机制中的漏洞，设计特定的输入，使模型输出有害或不当的信息。例如，通过特定的提示词，模型可能会生成敏感的机密信息、仇恨言论、虚假信息等，这对企业和用户都会带来严重的安全威胁。

为了解决模型内容安全方面的问题，百度的"大模型安全解决方案"通过使用语义干预、意图分析等技术实现的大模型安全防火墙，可以有效抵御各类高级攻击，结合代答模型实现安全大模型输出风险的最大化防范。

InfoQ：您能否分享一些百度在数据清洗和内容审核方面的创新方法？

冯景辉：首先，必须通过严谨而细致的训练数据清洗，保障进入模型训练的数据都是经过仔细甄别的，严格脱敏和审查了价值观的内容，经过这些处理之后，虽然大量的数据无法满足训练的要求而被最终删除，但也正是这样的方法保证了预训练模型在人类价值观天然就具备更好的对齐性。

百度在数据清洗上不仅提供了一整套清洗系统，还创新性的引入了四步法，即数据集评估、隐私脱敏、内容合规清洗、完整性评估四个步骤，通过这四步实现数据评估到清洗，到评估的闭环。

在线系统的内容安全方面，百度创新性地引入了代答模型这一组件。这种模型以其较小的参数体积和干净的数据输入，成为了处理敏感问题的关键工具。由于代答模型的参数规模较小，它能够高效地进行模型训练和更新，同时确保低幻觉性，从而在实际应用中减少了错误或不相关输出的风险。此外，当代答模型与检索增强技术（RAG）相结合时，可以进一步提升问题回答的精准度和质量。这种结合利用了 RAG 的强大检索能力和代答模型的高效、精确特性，使得系统能够在复杂和多变的在线环境中，对敏感问题给出更安全、可靠的回答。这不仅优化了用户体验，也提高了内容审核的自动化和智能化水平，是内容安全技术发展的一个重要步骤。

InfoQ：您认为为什么需要构建大模型的原生安全？内生安全技术在大模型中的应用是如何实现的？百度在内生安全技术方面有哪些独到的见解或实践？

冯景辉：以前我们的内容审核技术主要面对的是用户生成内容（UGC）以及专业生成内容（PGC）的审核场景，这种场景以叙述为主，内容相对固定且易于标准化。然而，传统的内容审核技术并不适用于生成式大模型，特别是那些用于实现多轮对话的模型。这些大模型在对话过程中往往能够维持话题的连贯性和逻辑性，但问题本身在单独出现时并不一定包含敏感内容，而是可能在多轮对话的上下文中生成不当内容。

此外，很多基于场景的攻击，例如通过特定的输入引导模型生成不适宜的回答，是传统内容审核技术难以预测和解决的。这些攻击利用了大模型的不确定性和所谓的“幻觉”特性，即模型可能基于错误的事实或逻辑生成回答。这种不确定性以及大模型本身的复杂性，增加了检测与审核的难度。

因此，必须针对生成式大模型的特性，构建完全符合这些模型安全需求的新型内容审核技术。这包括开发能够理解和分析多轮对话上下文的智能工具，以及利用机器学习方法来预测和识别可能的不适宜内容生成。这种新技术将需要更深层次地理解对话的动态性和复杂性，以及模型生成回答的内在逻辑，从而提供更为精确和实时的内容安全解决方案。

我们所说的内生安全指的是通过数据清洗、人类对齐等技术，让模型本身具备更好的安全性。做好安全对齐对于大模型内容安全而言，可以说是事半功倍。首先，通过有监督微调（Supervised Fine-Tuning，SFT）可以使大模型更好地像人类一样理解和回答敏感问题。这种技术通过精确的训练，确保模型在处理敏感内容时能够遵守人类的伦理和道德标准。

其次，通过增强学习从人类反馈（Reinforcement Learning from Human Feedback, RLHF）来进行人类观点的对齐，进一步让模型了解什么是更好的回答。这种方法通过模拟人类的评价过程，使模型能够在实际交互中生成更加合理和符合人类价值观的回答。

此外，通过对输入大模型的数据进行严格的清洗，可以有效地去除不准确或有偏见的信息，确保训练数据的质量和纯净性，从而提高模型的输出质量。这一步骤对于防止模型学习到不当的内容至关重要。

最后，集成安全围栏技术构建的大模型防火墙，可以实现内外兼顾的纵深防御体系。防火墙能够在模型运行时实时监控其行为，对可能的不当输出进行拦截和修正，实现快速止损，保障模型在任何情况下都不会产生违反安全准则的回答。

通过上述措施，可以构建一个既能有效应对外部安全威胁，又能内在防范错误生成的大模型安全体系，从而在维护内容安全的同时，也保证了用户交互的质量和模型的可靠性。

安全围栏与应用安全

InfoQ：安全围栏建设在大模型内容安全中扮演了什么角色？这些经验对其他企业有何借鉴意义？

冯景辉：安全围栏技术是在不改变大模型的前提下，实现一套外挂式的安全防御系统。这种技术的主要目标是实现快速止损，即通过精准过滤任何可能有害的输入内容和输出内容，快速阻止不当信息的传播。安全围栏的实现通常包括多层检查机制，从基础的关键词过滤到更复杂的语义理解和情境分析，再到代答模型，每一层都旨在识别并处理潜在的不当内容。

例如，可以在模型输出前加入实时内容审查系统，对所有生成内容进行评估，任何标识为可能有害的输出都会被即时拦截和修改。然后在情景分析和意图识别中将哪些有可能造成危害的输入引入代答模型的回复，保障在风险问题上的安全。

此外，安全围栏是内生安全的一种有效补充。虽然内生安全通过提高模型本身的安全性来减少不当输出的可能性，但外部安全围栏技术提供了一种额外的保护层。这种双重防护机制确保即使在内生安全措施未能完全预防不当行为的情况下，也能通过外部干预迅速纠正问题，极大地增强了整体安全体系的鲁棒性。

InfoQ：您认为应用安全与基础模型内容安全之间的边界在哪里？两者之间是否存在重叠或冲突？

冯景辉：基础模型与模型应用在内容安全与合规上虽然存在一定的共同关注点，如都需面对内容安全的敏感问题，但二者在处理这些问题时的侧重点有所不同。

对于基础模型安全而言，主要关注于处理通用性问题和训练数据中可能带来的风险。这包括确保输入数据的多样性和质量，避免训练过程中出现偏见和不准确的情况。基础模型还需关注模型的可靠性，尽量减少由于模型幻觉带来的风险。例如，通过增加模型对不确定输入的鲁棒性，来提高模型整体的稳定性和可靠性。

对于模型应用安全而言，则更多关注于保护应用本身。这涉及到大模型在具体应用中如何保证安全，包括对模型自身的保护以及整个供应链的安全。在应用层面，需要特别注意如何控制和监测模型的输出，避免在特定应用场景中产生不当或有害的结果。此外，模型应用还需关注如何在不同的使用环境下保持合规性，比如在涉及敏感数据处理时符合本行业法律法规，模型应用也要防止滥用。

InfoQ：百度在应用防火墙的构建上有哪些创新之处？这些措施如何帮助提升整体安全性？

冯景辉：在大模型防火墙的实践上，我们创新的将语义识别与意图识别相结合，通过分析输入内容的意图，实现精准的意图的分类和策略路由，以便更加有效地管理输入请求，确保其安全性和合规性。通过这种方式，可以有效地将请求分流至不同的处理模块，从而最大化资源的利用效率和保障处理质量。

我们利用基础模型的安全状态作为一个重要参考，决定某些类型的请求是否应由基础模型直接处理。例如，对于一些模型强化过人类价值观和违法犯罪问题的模型，而开发者又希望同时可以将兼顾指令跟随和逻辑处理，那么可以将这一类问题经过判断，中低风险的交给基础模型进行回答，在效果和安全性之间做到平衡。

未来展望

InfoQ：您认为大模型内容安全领域的未来发展趋势是什么？

冯景辉： 首先，多模态是现如今大模型的标配，但目前模型安全领域还存在着短板，有很多模型，只要把过去不能执行的有害内容指令写入图片或文档等多模态输入中，就能绕过检查，这是急需要解决的问题。

InfoQ：您希望通过这次演讲，让听众获得哪些具体的知识和启发？

冯景辉：希望大家能通过我的分享，了解到大模型安全风险，认识到大模型安全与我们的日常生产息息相关，希望更多的朋友关注并参与到大模型安全的事业中，为这一次技术革命保驾护航。也呼吁有关部门，对新技术保持开放和包容的心态，同时尽早关注多模态带来的风险，出台相关的规范指导行业健康发展。

嘉宾介绍：

冯景辉，百度安全副总经理，现任职于百度安全平台，任副总经理，负责集团业务安全、业务风控和大模型安全解决方案；其负责的百度搜索内容检测系统，多年来致力于持续改善搜索生态健康度，打击各种违法违规黑产利用搜索引擎传播，尤其是在打击搜索结果中的涉诈内容方面，为保护网民，净化网络空间内容履行百度社会责任，连续七年持续投入打击力量；其负责的业务风控、流量安全、反爬虫等方向是百度所有互联网业务的核心安全能力，历年来百度移动生态业务中发挥重要的保障作用；其主导的大模型安全解决方案是国内第一个可商用的覆盖大模型训练、部署和运营全生命周期的安全解决方案。在进入百度之前，冯景辉是国内第一家完全基于 SaaS 的云安全服务厂商安全宝的联合创始人兼研发副总裁，安全宝系统架构总设计师。

活动推荐：

在 8 月 18-19 日即将举行的 AICon 全球人工智能开发与应用大会上，60 多位来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等顶尖企业与研究机构的资深专家将汇聚一堂，带来 AI 和大型模型在各种落地场景下的应用案例和最佳实践分享，帮助与会者提升技术视野、获得有价值的实践指导。大会火热报名中，详情点击【阅读原文】链接了解或联系票务经理 13269078023 咨询。

创作场景