大模型落地高风险区，如何一步步避开陷阱？｜对话 AI 原生《云智实验室》

在经历了两年的混战后，大模型终于从技术走向应用，“不卷参数、卷落地”已经成了行业共识。但大模型落地并非易事，要想清楚场景价值，也要选对实现路径。百度智能云千帆 ModelBuilder 作为企业级大模型服务与开发平台，提供高可用及高效价比的生成式 AI 服务及全流程模型开发工具链，帮助企业高效利用大模型，实现价值的最大化。那么，千帆 ModelBuilder 具体是如何帮助企业快速上手大模型的？如何帮助企业进行模型迭代？大模型时代，企业需要什么样的模型服务与开发平台？带着这些问题，在《对话 AI 原生：云智实验室》栏目中，百度智能云 AI 与大模型平台副总经理李景秋与 InfoQ 总经理王一鹏展开了一次深度探讨。

以下为本期栏目精华内容：

InfoQ：近两年，大模型技术迅速崛起并引领一场前所未有的技术革命，在千行百业中，几乎都能看到大模型的身影。您从行业视角来看，当前企业落地大模型的现状如何？主要面临哪些挑战？在大模型时代，企业的模型服务与开发平台应该是什么样的？

李景秋：自 2023 年 3 月底首次发布千帆 ModelBuilder 以来，在不到两年的时间里，企业应用大模型已经从原始的探索期进入到应用爆发初期。目前各行各业，包括电商、智能办公、教育、零售以及传统的能源、金融、政务等，都在利用大模型改革原有的生产流程，重塑原有的应用，并探索创新的大模型 AI 原生应用。

在服务各行各业的过程中，我总结下来有这三个关键挑战：

第一，在大模型的效果层面，存在指令遵循、时效性、领域知识以及幻觉等问题，这也是目前企业在落地应用过程中希望大模型持续提升效果的痛点。
第二，随着大模型应用的快速发展和爆发，大家开始从效果维度进一步关注到成本和性能维度，关注大模型计算过程中的性能指标数据，如 TPS 等，以及能否在它的场景里面，更低成本、更快响应的使用大模型。
第三，传统企业在使用或应用大模型过程中会遇到管理上的挑战和痛点，大模型的应用需要大规模的计算资源和专业的算法人员，涉及到大集群、大人员的人才集约化管理，当机器和人员都需要集中管理以发挥更大企业效能时，集约化管理成为企业使用大模型过程中的一个挑战。

对于大模型的服务与开发平台，我们希望它能够解决上述企业面临的挑战和问题。首先，千帆 ModelBuilder 能预置高质量、多元化的大模型，供企业快速选择，找到更适合自己场景的大模型，并以更低门槛、更低成本的方式使用。其次，当企业的应用在爆发的时候，平台能否提供更高的 SLA，灵活的扩缩容等运维机制、方法和工具，这也是千帆 ModelBuilder 需要具备的能力。最后，针对企业集约化管理的痛点，平台也需要在解决传统企业在人才、人员权限、资源管理等方面具备相应的能力。

InfoQ：在 2024 百度云智大会上，千帆大模型平台宣布升级到 3.0 版本，您能否简单介绍下对比千帆 2.0，千帆 ModelBuilder 有哪些比较重要的升级点？这些升级对用户来说意味着哪些服务上的变革？

李景秋：大模型服务与开发平台的发展和市场需求趋势紧密相关。2023 年 9 月，千帆 2.0 正式对外发布。当时，模型本身正处于快速迭代和发展的阶段，不同的模型厂商纷纷推出各自的开源和闭源大模型，这些模型尺寸和上下文长度各异，整个行业应用状态都处于探索期。所以当时千帆 2.0 更加强化了平台的能力，聚焦于将更多元、更优质的大模型高效地预置和托管在千帆 ModelBuilder 上，以便企业快速找到市场上最新、最热门的大模型。总的来说，千帆 2.0 版本在服务推理调用方面建设相对完善。

进入 3.0 阶段，客户需求发生了变化。除了追求更好的模型外，客户不再单纯追求参数规模最大、最好的模型，因为这些模型往往成本较高。相反，他们更关注模型在特定场景下的效果，并要求模型更加经济、实惠，以便能够快速应用于大规模场景。因此，对效果和性能的综合考量成为了 2024 年市场趋势的一个重要洞察。

与 2.0 相比，千帆 3.0 在预置模型层面更加多元化。除了 ERNIE 旗舰版 3.5、4.0、4.0Turbo 之外，还推出了轻量级模型 ERNIE Speed、ERNIE Lite、ERNIE Tiny，帮助企业基于轻量级模型快速构建场景化模型，并大幅降低成本。同时，还推出了场景化模型，如 ERNIE Character、ERNIE Functions、ERNIE Novel 等，帮助企业在特定垂直场景领域选择到匹配自己需求的模型。

在工具链层面，千帆 ModelBuilder 也进行了大幅扩展，推出了大模型数据洞察一站式工作台，并丰富了数据模型精调算法，除了原有的 SFT、SFT-LoRA 之外，还推出了基于强化学习（RLHF）的 DPO、KTO 等多种偏好对齐方法。同时，在模型评估和模型压缩方面，平台也提供了更多元和丰富的工具链，帮助企业快速构建自己的场景化大模型，满足业务需求的发展。

InfoQ：当前越来越多的企业已经意识到大模型的巨大潜力和价值，但在如何有效地应用这些模型，实现其价值最大化方面，仍面临诸多挑战。千帆 ModelBuilder 是如何帮助企业快速上手大模型的？在选择和调用模型方面，千帆 ModelBuilder 有哪些思路和策略？

李景秋：当前企业在选择大模型时面临困扰，因为市面上的大模型种类繁多，从大模型的分类层面来看，主要可分为三大类：

第一类是旗舰级模型，它们的参数规模较大，擅长解决一些复杂问题，如通用问答场景、规划类、逻辑梳理、代码类等难题。
第二类是轻量级模型，它们适用于基于少量指令数据进行快速指令精调的场景，使得轻量版模型在格式遵循类、语气风格遵循类或指令遵循类的场景中表现更佳，其参数规模相对较小。
第三类是垂直场景模型，例如 ERNIE Character、ERNIE Novel 等，这些模型专注于角色扮演、小说类场景，并针对特定服务场景进行了效果优化。

为了帮助企业降低上手难度和选择合适的模型，首先，千帆 ModelBuilder 提供了模型广场模块，预置了不同厂商的旗舰级模型、轻量级模型和场景化模型，以供企业进行多元化选择。

其次，千帆 ModelBuilder 进行了基础通用评估，将百度对大模型通用性的理解进行了初步测评，并放置在模型广场中，方便企业开发者进入平台后进行初步判断和参考。

千帆 ModelBuilder 还提供了快速体验窗口，用户可以在模型广场上快速、零门槛地试用大模型，体验其效果。对于需要更专业模型评估的企业，平台提供了多元化、完整的端到端模型评估工具链，包括预置的模型评估基础语料数据，无需准备数据即可进行评估。平台还提供了自动规则评估和自动裁判员评估，以帮助用户更高效地获得整体模型效果。对于有定制模型评估需求的企业，平台提供了开放性的自定义模型评估的 prompt 模板和自定义裁判员模型，以便进行模型评估，快速在平台上选择和定位适合企业上手的基座模型。

此外，有些企业在模型体验时需要做一些基础的 prompt 工程，以检验 prompt 的效果。千帆 ModelBuilder 预置了 200 多个优质的、经过百度工程师产业实践的 prompt 模板，极大地降低了企业的模型选择和尝试门槛，帮助企业快速找到更适合自己场景的模型。这些模板覆盖了金融、教育、电商等多个领域，企业可以迅速找到贴近自己场景的 prompt 模板，获取可参考的素材。

InfoQ：在实际业务中，客户往往需要针对特定场景定制模型以实现成本效益最大化。针对这种需求，千帆 ModelBuilder 提供了哪些定制化的服务？

李景秋：在处理效果类问题时，指令遵循并非都能通过定制解决。定制适用于有明确场景类指令的跟随，需要明确的格式模板，如 JSON 格式，以及对数据积累和语气风格有明确要求的场景。这类场景适合通过精调训练和指令增强来快速提升模型的泛化性和指令遵循效果。

提升效果需要满足不同维度的要求：首先是基座模型的质量，需要一个可被指令增强的基础模型；其次是准备相关场景化数据，关注数据与实际场景的一致性和泛化性；最后是在训练过程中找到最优的调试参数，如迭代轮次和学习率等。

围绕这几个层面，千帆 ModelBuilder 在模型定制环节的目标是让企业以更低门槛获得适合自己场景的、成本更低的模型。首先，平台提供了原始的指令数据，千帆 ModelBuilder 上预置了 71 个高质量数据集，这些数据经过算法工程师处理，增强了场景效果，同时保留了通识语料知识，提供了场景上指令数据构造的灵感。

在数据方向上，千帆 ModelBuilder 提供了一站式数据洞察和处理平台，包括多维分析可视化面板，可以分析 prompt 分布长度、上下文 token 分布差异，基于关键词筛选，提供数据清洗、增强的通用算法。平台预置了 60 多个算法，如去隐私、去敏感数据、去 emoji 表情等，以及 self QA、self-Instruct 等通用增强框架，帮助数据在更短时间内获得全方位的质量评估，清洗脏数据，并进行额外的增强和自动化合成数据补充，以达到高质量的精调数据。

其次，当数据准备就绪后，进入模型精调和训练环节。千帆 ModelBuilder 涵盖 25 个可进行精调和偏好学习的训练算法基座模型，覆盖文本类或多模态模型，包括市面主流的开源、闭源模型。在训练算法方面，千帆 ModelBuilder 支持全量参数的 SFT、SFT-LoRA，以及强化学习偏好对齐方法，如 DPO、KTO 等。精调训练完成后，进入评估环节，千帆 ModelBuilder 提供了完整的自动裁判评估、自动规则评估以及自定义评估维度的工具链，帮助快速明确场景应用效果状态。

为了让企业更快上手这一流程，千帆 3.0 全新发布的内容中预置了许多精调样板间，如作文点评、电商客服问答、英语口语练习等，可以进行模型精调以提升效果，同时大幅降低成本。样板间包含了训练数据、超参数调整、模型选择和最终效果，全流程预置于平台上，用户可以“傻瓜式”地完成基于产业实践场景下的模型精调过程。

InfoQ：行业这两年关注度非常高的一个问题就是模型蒸馏，就像您刚才提到的，在业务真正起量之后其实大家对业务的成本也好，对于模型尺寸、资源的消耗也好，关注度是直线上升的，千帆 ModelBuilder 上的模型蒸馏是如何设计的？千帆如何协助企业更高效地利用大模型技术？

李景秋：大家的关注点已经从单纯的效果转变为效果与成本并重。市场上确实存在这样的矛盾：企业认可旗舰级模型的效果，但是旗舰级模型太贵了，如何能以更低的门槛去应用好模型呢？

模型蒸馏的核心原理是找到一个旗舰级模型作为教师模型，指导一个轻量级的学生模型。通过教师模型指导学生模型的训练过程，即使在参数量较少或计算资源有限的情况下，也能接近甚至超过旗舰模型的性能。

目前，一些外部企业和百度自身的业务在使用千帆大模型平台时，已经开始采用模型蒸馏方法，能够在业务场景中使用成本更低、更轻量级的模型，以实现或借鉴旗舰级模型的效果。

千帆 ModelBuilder 在模型蒸馏方面的工作包括预置多种旗舰级模型供选择，以及在数据标注和精调数据指导过程中，快速通过自动化和旗舰级标注方式提取高质量数据。经过数据洞察清洗的一站式流程后，结合真实日志筛选出模型需要提升的数据部分，再基于轻量级模型进行精调和优化，使得轻量级模型在效果上尽可能接近旗舰版模型，同时大幅降低成本。

以电商数字人直播场景为例，通过模型蒸馏，我们能够实现 90%以上的旗舰版模型效果接近度，响应速度提高六倍，而计算资源消耗仅为旗舰版模型的 10%。因此，在降低成本和更有效地利用大模型方面，模型蒸馏的优势非常明显，有时甚至能在效果上带来惊艳的表现。

InfoQ：部署大型模型后，持续的迭代优化至关重要。当企业积累了丰富的用户反馈数据后，千帆 ModelBuilder 具体是怎么帮助企业进行模型迭代的？

李景秋：千帆 ModelBuilder 希望建立一个数据飞轮，以帮助大模型原生应用在生产环境中大规模使用后，还能持续提升模型效果。数据飞轮的核心在于，需要以自动化的方式高效地收集生产环境中相关效果的反馈。

例如，在不同场景的实际生产环境中，有一些相对通用的场景化评估标准。在社交文娱领域，可以通过对话轮次来评估大模型的效果，对话轮次多意味着用户愿意继续交流，从而表明效果较好；在教育场景中，判题类的模型可能依据准确率和召回率来评估，这又回归到了可以通用的判别方式，即题目是否答对，可以快速确认大模型的效果好坏；对于生成式或创作式的问题，可以通过用户点赞、点踩等行为来收集客户对效果的评估标准。

在收集这些日志后，需要进行进一步分析，包括分析用户点踩、模型识别效果不佳或对话轮次偏少的情况，并对这些数据进行快速筛选。再进行详细分析和标注性处理，确定正确答案和良好回复的标准。千帆 ModelBuilder 平台上提供了推理日志分析工具，用户授权开放推理日志后，可以自助完成海量日志的筛选和打标。

原始生产环节的日志分析完成后，就可以进入整体数据到精调的流程，包括数据洞察、清洗、增强、处理、标注，然后采用不同的 SFT、SFT-LoRA 等训练方法进行效果提升，最后进行模型评估，并在生产环境中上线后观察生产级、应用级的指标数据是否有提升。通过这样一个流程，能立竿见影地看到模型效果在实际生产环境下持续改善的趋势。

其实大模型的应用效果与实际生产环境中的应用表现密切相关。大模型应用企业的数据飞轮整个环节的高效性和及时性，对整个应用层面的商业化发展极为重要。

InfoQ：千帆 ModelBuilder 在哪些应用场景中实现了快速落地？具体是如何助力这些场景快速实现技术应用的？是否有一些成功的案例可以与我们分享？

李景秋：在教育领域，很多企业正在开发自己的大模型应用。例如，考试宝利用大模型为其会员提供试题解析服务，借助于相关的 prompt 工程和大模型推理调用，考试宝的服务能力得到显著提升，会员的付费意愿也增长了一倍。大模型在教育行业中确实能够为传统且已较为优秀的教育机构进一步提升商业价值。

在招聘领域，猎聘也利用大模型能力为其猎头提供人岗匹配服务。大模型能够快速从简历中抽取信息进行语义分析，提供更高的匹配度，使得猎聘的人岗匹配效果比同行高出约 15%。

在医疗领域，全诊医疗服务 50 家三甲医院和大约 15000 家医疗机构，通过基于医生与病患对话快速生成病例的服务，原本医生需要花费大量时间编写病历，现在大模型能迅速生成病历，极大提高了医生的接诊效率。大模型重构后，医生的接诊效率提升了 45%-50%。

在传媒领域，宁波传媒拥有一个专门收集小学生作文的小作者板块，他们也利用大模型为作者提供作文点评，使用了我们之前提到的精调样板间中的作文点评样板间来实施这一方案。

在传统行业中，如能源行业的国家电网，也在利用千帆 ModelBuilder 的大模型构建电力行业的大模型训练基础服务。基于千帆 ModelBuilder 平台，他们未来将提升整个电力行业的生产和经营管理效率。目前，无论是互联网行业，包括金融、招聘、教育、电商、文娱，还是与人类生活息息相关的传统行业，如能源等，都在使用大模型。

InfoQ：展望未来，您认为企业级大模型开发平台将如何进一步演进？千帆 ModelBuilder 在未来有哪些发展计划？

李景秋：作为大模型的服务与开发平台，千帆 ModelBuilder 的目标是服务于各行各业的企业，让他们能够以更低成本、更高效率使用大模型，从而加快基于大模型的 AI 原生应用的成长，并产生商业价值。这是千帆 ModelBuilder 的初衷。

结合各行各业对大模型发展的需求，一方面，千帆 ModelBuilder 在未来会持续将文心大模型系列中最好的、行业领先的模型第一时间预置在平台上，开放给各行各业；另一方面，千帆 ModelBuilder 还将结合市场趋势，增强多模态相关的工具链、端到端的数据飞轮、模型蒸馏等全流程能力。此外，千帆 ModelBuilder 将持续发展模型生态，让模型厂商将自家的行业场景模型预置在平台上，帮助建立行业生态。这些都是千帆 ModelBuilder 接下来会进一步完善的。

在应用大模型的过程中，高规格算力成本高昂，如何才能极致利用这些资源？可以看到一些发展趋势，比如在复杂的场景中做一些场景的细分，有些企业会用旗舰版模型解决一部分问题，用轻量级或精调后的模型解决另一部分问题，甚至有些模型可能用规则自动回复匹配来解决。基于场景特点，可以匹配相关的自动化 Router 分发策略和工具。

大家希望用旗舰级模型解决复杂问题，而通用简单问题可能会用轻量级模型解决。千帆 ModelBuilder 平台或工具链的发展将结合这些场景和需求提供更好的服务。同时，在大模型调用中，存在离线和在线场景，千帆 ModelBuilder 将提供不同丰富组合性的推理调度能力，让大家灵活地应用资源和使用大模型服务。

创作场景

大模型落地高风险区，如何一步步避开陷阱？｜对话 AI 原生《云智实验室》

以下为本期栏目精华内容：