经过一年多的发酵讨论,业内对生成式 AI 的概念已有基本认知。但是,如何将生成式 AI 相关技术落地在业务场景,并取得初步成效是现阶段企业重点关注的问题。本期《超级连麦·数智大脑》,InfoQ 邀请了来自金融领域的三位专家——某银行总行数字金融资深专家魏生,众安保险技术研发中心架构总监敬忠文、张少博,共同探讨金融领域生成式 AI 技术布局,“业技融合”案例及相关评估体系设定,商采、自研等方案的考量及未来趋势。
金融领域企业在生成式 AI 层面的整体布局
InfoQ:根据红杉资本的统计,目前有大约六成企业将生成式 AI 列入企业核心战略。请各位嘉宾从各自所在公司或行业的角度,分享目前金融领域在生成式 AI 层面的具体布局。
魏生:目前,我在某城商行总行担任数字金融资深专家,我行的资产规模约为 8000 亿。在此视角下,我发现银行非常关注人工智能应用,尤其是大模型相关应用。我们内部很早就开始了解 ChatGPT 的使用,并引入了智源的 ChatGLM3 平台,正在试点其中的开源 6B 模型。
目前的整体规划是分阶段进行,因为银行需要稳妥推进。具体来说,我们将分如下三个阶段推进:
第一阶段,少量场景的概念验证,局部落地构建最小可行性产品,通过试点产品完成 PoC (Proof of Concept)验证,同时了解相关技术的搭建部署以及实际应用中所需的资源准备。整个过程大概需要一年时间,因为我们刚刚搭建了系统,目前还在探索和训练阶段。内部配备了一个团队,每天都在验证,比如提示词的制定以及微调等相关试验。考虑到银行对安全性和监管要求的高标准,我们必须进行私有化部署,无法采用远程方式。
目前,国内也有多家厂商与我们接触,但验证的效果并不十分理想。虽然有些厂商声称效果非常好,但实际上的响应速度和精准度并未达到我们的要求。目前我们还没有完全掌控这项技术的可行性。
第二阶段,重点处理银行潜在应用场景的难点,梳理哪些场景可以应用相关技术。我们将按照价值和可行性高低来设置优先级,并制定量化的投入产出评估方案,进行试验和实践,形成相应的规划和总体路线。
第三阶段,在验证、试点、规划和准备的基础上,进行相关规模化应用的落地和体系化能力的固化。前两阶段可能不一定会进行自研,但到了第三阶段,技术、工具、基础设施等将会搭建起来,将大模型基础能力固化到整个银行架构,进而赋能到各个领域。
此外,大模型也是人工智能技术的一部分。我们内部一直在构建数据中台,最近也在研究 AI 技术的自主掌控,因此我们也在为相关的 AI 中台做准备。过去的准备主要集中在支持传统的机器学习和深度学习应用场景上。在去年底 ChatGPT 大火之际,我们开始内部评估这一新技术。我们认为生成式 AI 的方式与传统深度学习的方法并不完全相同,这可能会对我们产生一些影响。因此,我们目前正在评估中。如果这种技术被验证为可行,我们将调整正在进行的整个人工智能引入和体系化战略。从过去的分析、探索、挖掘到现在的大模型,我们需要考虑如何对原有的规划进行相应的调整。目前,我们在生成式 AI 和人工智能技术应用方面有明确的战略措施,需要建立完整的人工智能技术引入的配套实施要求,主要涵盖下述三个方面。
第一,制定人工智能战略和实施路线的总体规划,考虑引入供应商、评估效应、业务架构等,包括大模型风险的规划、运营模式的设计以及相关机制。
第二,从应用层面出发,搭建、验证模型,制定监测和变更管理机制,考虑风险处置等一系列配套措施。
第三,已经实施的用例需要设定一套机制,包括概念设计、原型制作、绩效评估、持续监测和变更管理等从应用角度上的措施。
InfoQ:今年中,众安保险与众安科技共同发布了国内保险行业的首份生成式 AI 应用的白皮书,其中提到了生成式 AI 技术在降本提质增效等不同的层面应用。可以分享下截至目前,众安内部的生成式 AI 全景图大概是什么样子的呢?距离白皮书所给出的场景有哪些变化吗?
敬忠文:截至目前,我了解到众安保险内部各事业部,甚至包括内部支撑部门都在积极尝试生成式 AI,许多部门已经成功将该技术应用到实际业务中。根据众安保险内部 AIGC 平台的数据,目前已有 38 个场景实际在运行,超过了白皮书中描述的 33 个场景。
我认为众安保险之所以能够快速推进 AIGC 主要有两个原因:一是公司高层非常有决心,这在 2023 Inclusion·外滩大会和白皮书中就有所体现,高层坚信 AIGC 是未来的方向,必须大力投入,快速落地。二是各事业部的同事对这项工作充满热情,参与度很高。在今年的 1024(程序员节)的活动中,众安保险以 AIGC 为主题举办了一场黑客松比赛,最初计划入围的队伍是 20 支,但实际报名的队伍达到 60 支,远远超出预期,可以看出大家的热情非常高涨。其中一支队伍甚至是由毕业生组成的,最终的成果也非常出色。前十名的作品都达到了可以直接系统演示的水平,比如其中一支团队开发的安全审计功能,目前公司内部的每天调用量已超过两万次,这在我职业生涯参加的比赛中也是比较少见的。综合上述两个因素,我认为目前的应用场景已经超出了白皮书所描述的范围。
生成式 AI 技术在金融领域的应用场景和初步效果
InfoQ:截至目前,公司 / 行业在生成式 AI 的技术层面主要取得了哪些成果?
魏生:首先,我们会合理将生成式 AI 工具应用于各种应用场景。出于合规和安全考虑,我们仍然坚持自建能力,因此我们尝试过智源、百川等多家公司提供的开源模型,并对 Meta 的 Llama 进行了试验。但目前并非所有场景都表现出色。对于一些常规场景,比如文章创作、自动应答等,我们能感受到一定效果,但尚未完全符合技术团队的预期。虽然说在技术团队试用还算可行,但要将其推广给业务部门,改变他们工作方式,目前这些框架确实还不够完善。
其次,我们正在做场景支持方面的规划,主要计划应用两种类型的场景:一种是传统场景的升级,比如使用深度学习的推荐引擎、应答机器人等,我们尝试用新的大模型方式进行升级,以提升效果;另一种是新场景的变革,比如在生成投研、投资报告等方面的应用。
最后,在风险管理领域,我们在探索新的方式,考虑基于客户判断和多维度判断的大模型方式替代目前基于规则的决策引擎。具体而言,我们正在进行数字人的项目,尝试将大模型引擎应用于数字人,使其更加聪明和人性化。我们未来计划将整个银行的业务场景打造成一个虚拟的营业厅,其中包括不同的角色,如客户经理、理财经理等。这个虚拟营业厅将支持客户进行各种与银行和客户业务相关的咨询。同时,我们正在尝试将大模型用于标准化的一些内容生成,如信贷项目的申请、绿色金融的 ESG 报告等,以提高效率。我们目前也在进行合同审查、风险管理等方面的实验,我们认为在这些方面能够取得较好的效果。
此外,我们还在努力将大模型应用于更通用的场景,如办公领域、日常营销方案生成领域等,我们希望将其变成一个智能助手工具,输出给各个部门,形成不同的知识库,最终提高人员效率。
当前的关键问题在于,由于银行业对风险和监管的要求较高,我们需要确保数字人的行为是合法、合规的。数字人是否能真正代表实体人进行相关操作,以及是否能够满足监管的要求,这是我们正在进行试验的重要部分。即便试验成功,我们可能需要向人民银行申请监管沙盒试点,因为监管机构要求实体人员执行客户触达和产品推荐等操作,而不是由虚拟人完成。
在技术上,我们有信心。在合规方面,我们还需要在试验的基础上更深入地与监管机构进行对话和合作,以确保数字人方案能够符合监管的要求,为客户提供安全可靠的服务。
敬忠文:企业要搭建 AIGC 的场景需要平台层的有力支持。在众安保险内部,为了在 AIGC 场景建设中解决不同层面的共性问题,我们打造了灵犀平台。如下图,该平台共分三层架构,主要解决在 AIGC 场景开发中不同层面的共性问题。
如上图所示,最底层是 MaaS(模型即服务)层。我们提供不同类型大模型的接入和适配能力,包含了一些基础能力,比如输入敏感信息过滤,保护客户和公司的私密信息,以及输出滥用过滤,确保生成的内容符合规范和安全。
中间层是提示工程和知识工程层,拥有知识库、技能编排等功能,可以降低场景开发的成本。一些优秀的范式,比如好的提示和线上的优秀话术,都可以通过系统的方式进行沉淀。提示工程支持编写、编辑、调试和测试验证,而知识工程则可以从知识的生成到更新优化,实现整个生命周期的标准化和自动化。这使整个过程看起来更像是一个工程化的动作。
最上层是场景工作台。我们有一些通用场景,比如问答、文案、翻译和出题等,各事业部和场景都可以使用该工作台。我们通过产品的方式将其沉淀下来,支持复用。除工作台之外,我们还支持以开放 API 的方式进行接入,使其与业务系统更加紧密和灵活地对接。
张少博:近年来,直播带货一直是热门话题,众安保险早在几年前就通过真人主播进行保险产品的直播销售,在保险行业内取得了良好效果。通过这些年的经验总结,我们发现保险直播面临三大问题:一是对主播有要求,主播需要具备保险或金融领域的知识,该领域具备一定门槛和学习曲线;二是成本和稳定性问题,明星主播的成本是极高的,人员的稳定性也是难题;三是运营问题,众安保险的直播间在直播时长、脚本内容质量以及评论区回复方面都处于行业内较高水平,然而这些都需要大量人工质检,尤其是在进行口播和评论回复时,需要考虑法律的合规性风险,需要大量的人员投入。
基于上述问题,众安保险将已有的大量脚本和真人直播内容导入灵犀平台做成知识库,再结合 AIGC 迅速进行结构化,同时提供仿写能力,以快速复制直播效果。我们还通过一些启发式的人机交互,在正常的直播间利用大数据看板和实时数据反馈,通过指标体系调整口播策略,结合用户评论区的意图进行问答匹配,使数字人更加自然而不生硬。
为了让大家更直观地感受,以下是我们在一个月前的实施效果视频演示。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
InfoQ:公司 / 行业如何判断哪些应用场景比较适合接入生成式 AI 技术,会有具体的指标吗?比如效果评定指标?怎么判断 ROI?
魏生:由于我们是传统银行,科技方面更趋向于传统。我们对生成式 AI 技术的评估主要是业务导向、评价导向和体验导向。首先,我们非常关注大模型在实验中是否存在关键问题和挑战,因为有时候大模型会出现“幻觉”。我们特别关注与大模型相关的问题和挑战是否可以解决,这是引入该技术的前提。
其次,数据隐私和安全性也是我们关注的焦点。在大模型时代,模型具有泛化能力,可能输出一些不被允许的内容。我们需要模型以可控和可解释的方式生成结果。如果这个问题不能解决,引入该技术对金融机构而言将是一项巨大的风险。
再次是模型的准确性。特别是在涉及风险的场景中,我们不敢将其用于自动审批规则,而是将其作为辅助工具,用于发现客户信息中的潜在问题。在绿色金融领域,我们应用大模型进行绿色项目的识别,但这仍然是一个辅助工具,而不是完全替代。然后是公平性的问题,尤其是在贷款领域,如果我们对同一类型的人做出不同的决策,客户可能会投诉歧视。
最后是人才储备问题,尤其是在大模型方面。我们采用新的大模型方式,以预训练为主,需要相关人才进行调优,这可能需要依赖成熟的商业解决方案。
在运用条件方面,我们认为有三个关键因素需要考虑。首先是高质量的数据,训练模型所使用的数据必须保证质量、精准度和覆盖面;其次,我们需要能够不断迭代模型,这方面 AI 的能力还不成熟;最后是提高场景效率,我们需要建立相关的图谱规则,加强知识图谱的能力,从而更快地形成规则体系和语料库,这可以提高某些场景下的效率,比如在外呼机器人的配置和智能质检方面,以前需要花费大量时间,而现在可以通过大模型技术更快地完成。
敬忠文:事实上,我们在构建灵犀平台时并不是单纯想要开发一个平台,而是从场景出发思考的结果。第一个场景是为众安银行翻译符合品牌调性和香港经管局合规要求的营销文案。最初,我使用 Java 直接本地调用 OpenAI 创建了一个演示,测试是否能够得到满意的效果。后来出于合规要求,用户信息必须脱敏,企业服务记录必须保密,安全需求产生,再加上国家对数据出境的要求,我们必须要迁移到国产大模型之上才能够使用。因此,模型的标准化适配成为刚需。
随着场景逐渐铺开,我们又发现内部不同团队之间可能都在做一些重复的工作。例如,每个团队都需要编写接入代码,处理安全问题等。在提示编写的过程中,大家都需要进行调试、验证并管理知识库等。基于这些共性问题,灵犀平台逐渐从场景中发展而来。
目前在众安内部,跑得较快的场景主要是智能客服、智能催收和数字人。
在智能客服场景,我们利用 AIGC 进行了很多探索,预计年底时可以提升在线客户产能的 10% 至 20%。例如,我们以前是让人工坐席来进行标记,现在使用大模型训练了一个私有化的小模型,用于代替人工进行文本分类标记。这不仅为人们节省了时间,而且标记的准确率比原来的人工提升了 10%。我们还为在线坐席开发了辅助的智能体,用于处理保单的定位等业务。
在智能催收场景,我们基于大模型提供的智能外呼可以更好的进行多轮会话的语境理解,并提供更灵活的催收策略。通过在线 A/B 测试,我们发现大模型做的智能外呼相较传统 NLP 的智能外呼在挂机率和通话时长上都有显著提升,通话时长提高了 50%。在催收领域,这是一个相当重要的指标,因为它代表着客户愿意与我们进行对话,从而增加还款的机会。
张少博:在数字人的应用层面,我们致力于公域和私域创新。数字人的应用场景主要聚焦于带货,而带货的 ROI 公式简单来说是利润除以成本。数字人在这方面有着显著优势,因为它能够有效地减少成本,从而使 ROI 趋于至少与真人相当。这是因为数字人能够节省真人主播和人工运营团队的成本。我们前期的目标就是要实现与真人带货的成本相当,未来甚至可能会超过真人主播带货,无论是在时长还是 ROI 方面。
除这些场景外,在研发提效方面,众安还自研了代码助手 Devpilot(感兴趣的开发者可以通过 https://github.com/openpilot-hub/devpilot-intellij 进行体验),目前已经开源。该助手支持生成代码注释、单元测试,语法、性能和安全检查。在众安内部的使用效果已经逐步展现,整体开发提效 20%。
InfoQ:对于同领域的企业 / 行业在应用生成式 AI 技术时,您有哪些建议?商采和自研的成本分别是哪些维度?二者比较下来是什么情况?
魏生:因为我们不像国有大行那样人员众多,所以在短期内不太可能选择自主研发的方式。我们首先会利用业界开源的技术,逐步了解,逐步应用。当前,训练模型的要求较高,我们先从小模型开始,比如 6B、7B 参数,通过微调部署到消费级服务器主机进行验证。一旦验证效果良好,我们可能会考虑扩展到规模更大的 60B、70B 模型。这是一个渐进的过程,取决于不同机构的投入程度。
一方面,目前我们科技能力相对较弱,仍在积累经验。我们正在进行一些工作,包括构建相关模型和研究不同模型的微调。此外,我们计划优化模型的部署和迭代。我们正在将自身的容器云 PaaS 平台改造成 AI PaaS 平台。这个平台旨在全面管理大模型的生命周期,从训练集数据的管理到模型管理、向量数据库的管理,再到提示词规则的迭代。
另一方面,我们正在建立一个基于大模型的数字化能力中心,旨在将基于大模型的知识收集和提取能力固化。我们将这些基础能力应用于特定情境,同时确保它们可以在不同但相关的场景中被重复使用。此外,我们还利用这些能力来分析用户的问答,为客户创建个性化的标签,以更深入地了解他们并提供服务。这一过程有助于优化客户体验。我们认为,这种将基础能力沉淀成模板、标准化的方法是一种很好的积累。
我们基于大模型迅速实现了视频脚本的生成,虽然这并非完全适用于银行场景,但我们已经在当前阶段成功地运用了这一流程,使用现有工具让整个过程变得相当便捷。这不仅仅是银行内部的应用,事实上,在各种场景都可以运用这种方式。虽然这套框架刚刚跑通,效果可能还不够理想,但已经达到了我们的预期,大大提升了效率。
总的来说,我们更多地使用现有的开源模型进行延伸。基础能力可能已经达到了一定的天花板,但随着大型厂商技术的不断发展,我们也会跟随其进步。因此,我认为这是一个无止境的过程,几乎任何场景都能够应用,只是目前可能还处于早期阶段,我们将其视为一种用于提升当前业务效率的工具。
敬忠文:对于中小企业而言,大模型的成本投入是相当高昂的。通常情况下,正常的大模型部署、训练和达到生产标准至少需要数百万元人民币的投资。而且,模型一经迭代升级,之前的训练版本可能就无法再使用。在美国,一些公司基于 GPT-3 进行微调,当 GPT-3.5 发布后发现已经过时,而且放弃之前的版本几乎是不可能的,严重时甚至会导致公司倒闭。因此,在这个层面上,我认为商业采购可能是一个不可避免的选择。当然,在一些特殊场景下,比如对算力、安全性要求不高的情况,可以基于 Llama2 这样的基础模型进行微调,然后进行简单部署,这两种方式可以结合使用。
InfoQ:请问各位老师目前有看到哪些场景可能是无效或者不值当尝试,又或者有哪些潜力巨大但目前可能尚未被发现的场景?
敬忠文:我认为值得关注的场景是自动化代理,尤其是营销内容生成方面。AIGC 的名字本身代表着对 UGC 的升级,也显示了它的商业模式。互联网上已经有了很多的优质内容,有些内容甚至超越了人类创作,而其背后其实是 AI 生成的。尽管 AIGC 看似万能,但实际上并非如此。有很多场景可能只需使用一个小模型或一小段代码就能完成,而不必借助 AI。
举个例子,我曾涉足翻译场景,使用 AIGC 来翻译繁体字。然而,AIGC 在这方面并不稳定,生成的繁体字中可能夹杂着简体字。实际上写一段代码就能完成精确而迅速的繁体字转换,为什么要使用 AIGC 呢?自动化能够胜任的任务,就无需借助 AI。
魏生:我认为 AI 算法在任何场景都能够发挥一定作用,但其效果是否达到当前阶段的预期,取决于技术的不断迭代和成熟。因此,潜在的应用场景是多样的,只是需要在特定场景中确保能够产生令人满意的效果。
在特定场景方面,我认为问答能力,包括开卷或闭卷的问答,以及以推理为核心的应用场景都是相对合适的。然而,对于需要极高精确度、严谨性和安全性,或者受到严格监管限制的领域,大模型的泛化能力可能就不太适用。其他方面,如文本生成、代码生成和知识推演等领域,大模型显示出更强的应用能力。在银行领域,我们主要关注对已有知识结构的重构,基于这些结构生成相关查询和推理。这对于一些大众企业和机构试验大模型而言可能是主要的应用场景。
目前国内呈现大模型百花齐放的局面,但我认为很多公司只是进行一些修改或在大模型基础上开发小模型。我个人也申请了一个专利,虽然是在现有情境下进行的某种优化,但依然依赖传统模型的基本原理,主要是 Transformer 算法的衍生。我认为这些技术并没有革命性的差异,只是优化方式不同。在实际运用中,我们可能会发现很多公司声称能够提供大模型解决方案,但实际效果真正达到企业化应用效果的并不多。未来一年,业内需要冷静面对这个领域的过热现象,实现优胜劣汰,但我仍然看好这个领域的前景。我建议业界保持冷静,集中精力在优势的资源上,逐步尝试并实现一些实际场景应用,这可能是一种更为务实和合适的策略。
InfoQ:请您简单分享下在提示工程方面的经验和技巧?
敬忠文:关于提示工程,我觉得吴恩达(Andrew Ng)的解释比较好。他与 OpenAI 合作了一门免费公开的课程,在其中讨论了一些提示工程的要点,例如角色扮演和清晰的提示。角色扮演是指指定一个角色,大模型将会表现出该角色的特点、个性和专业能力。另外,清晰的提示是指确保提示清晰明了。比如,你可以说“帮我生成多个方案”或者更具体地说“帮我生成 9 个方案”,使用具体的数字通常能够获得更好的效果,这是提示工程的基础。
在 OpenAI 官网上也有很多示例。其中之一是苏格拉底式的提问,就是通过提问的方式来教授知识和概念,这种方法在可汗学院等机构已经得到广泛应用。另一个例子是专家对话,模拟两个专家在某一领域进行对话,生成的方案通常超越了直接提供的一般性方案。
我认为提示工程一种非常有效的方法是分段。当提示工程支持分段时,它开始具备一些工程特征,因为你可以在整个提示词中更灵活地进行扩展。在没有分段的情况下,提示可能是一大段,需要包含一系列要求,比如模仿某个人的语言和表达方式。然而,自从引入分段功能以来,提示工程的门槛降低了,使得提示更具可控性和可操作性。
未来趋势
InfoQ:聚焦到各自的行业,有哪些应用场景是各位觉得未来一年可以普及的?各自所在行业接下来在 AIGC 技术层面希望解决的难题是什么?
张少博:作为保险公司,最大的担忧是风险。随着 AIGC 和大模型的出现,未来对保险公司可能更加友好。众安保险作为首家向个人销售指数型保险的公司,针对不同的风险,比如地区差异、人身险、责任险等,公司可能会调整费率。随着大模型和训练工程的发展,保险公司可以利用大模型提供的数据,比如气象和气候数据,更好地应对极端天气,实现更准确、差异化的费率管理。
敬忠文:我认为要在 AIGC 领域取得竞争力,并产生巨大价值,必须实现大模型与企业知识库的完美融合。为达到这一目标,知识的生成、迭代和召回都必须做得非常出色。虽然,当前通用的 LangChain 已经在这方面有了一定进展,但对于长文档的精确定位和泛化问题仍有改进空间,我们需要更优秀的算法实践来解决这些挑战。
另一个问题是多模态。尽管在文字方面,我们已经有了较强的可操作性,但在图像识别和图像生成以及声音、视频方面的应用还有很大提升空间。如果能在这些领域取得突破,我认为将能够解锁更多的应用场景。
魏生:展望未来,大模型的技术突破打破了 AI 技术的原有上限,呈现出巨大的数据价值,其能够灵活应用于企业业务,推动极大的效率提升,前景是非常光明的。然而,大模型并非无所不能,其存在一定局限性,特别是在缺乏特定行业知识方面。提示工程是一个全新的领域,与传统的软件工程和知识工程有很大不同,需要学习这种新的工作方式。因此,在未来应用大模型时,我们应该找准优势和局限性,充分发挥其最关键、最成熟和通用的能力,如内容生成和知识问答,找到实际的入口点,切入到企业最需要且最能体现大模型技术的场景中。
从技术角度来看,Chatbot 这样的客服聊天机器人已经发展到了代码生成和自动生成等工作建议的阶段,比如 Copilot。在未来,我们认为它将进化为 Agent 阶段,成为自主的智能体,能够以组合的方式执行复杂任务。这种 Agent 能够通过自动化的整合逐步执行任务,解决复杂问题。未来的发展趋势倾向于 Agent 的多步执行方式,这是值得开发者们重点关注的。
评论