金融业采用大模型，是“用大炮轰蚊子”吗

本文是“2023 InfoQ 年度技术盘点与展望”系列文章之一，由 InfoQ 编辑部制作呈现。

今天，无人不谈大模型。

根据麦肯锡《2023 年 AI 现状：生成式 AI 的爆发之年》报告显示，60% 的组织机构正在使用生成式 AI 工具。而 IDC 日前发布的《2023-2024 年中国人工智能计算力发展评估报告》中也有相似数据，67% 的中国企业已经开始探索生成式 AI 在企业内的应用机会或进行相关资金投入。

金融行业是受影响最大的行业之一。知识密集、场景丰富、数据和技术基础好、资源相对充足...... 这些得天独厚的条件为大模型在金融行业的落地应用培育了温热土壤。

那么经过过去一年的探索与实践，金融行业是否找到了大模型落地应用的最佳路径？取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏？本文是 “2023 InfoQ 年度盘点与展望” 系列文章之一，通过与金融领域各行业专家的交流，希望进一步明晰金融机构在大模型这一趋势下的实践思路和路径。

金融大模型“抢滩”之战

放眼全球，摩根士丹利作为首家正式接入 GPT-4 的金融机构，已经把相关技术应用到了投资策略分析领域；高盛更进一步，已经使用大语言模型辅助风险管理分析。聚焦国内，当前我国金融领域发布的大模型已经超过 20 个，并且数量还在不断增加；在 42 家上市银行中，也有 9 家银行在 2023 年的半年报中明确提及正在探索大模型应用。

比如工商银行在年中财报中提及，已经完成人工智能 AI 大模型能力建设应用规划，实现百亿级基础大模型在知识运营助手、金融市场投研助手等场景的应用。

举例来说，工商银行将大模型应用到了客服全流程：在事前智能客服知识运营阶段，利用大模型自动完成数据标注与知识维护，帮助提升传统智能客服分流质效；在事中服务客户阶段，利用大模型打造前情摘要功能、知识随行功能、工单智能填写功能，从而提升坐席运营效率，压降通话时间；在事后质量检查阶段，生成传统质检 AI 模型数据，即模拟坐席及客户问答，提升传统质检模型准确率。

建设银行旗下金融科技公司建信金科，实行的是更为全局化和体系化的大模型布局。具体而言，从通用能力、安全合规、金融需求三方面为出发点，设计了金融行业的大模型能力体系。该能力体系设定了 7 大一级能力和 23 项二级能力，用于帮助建信金科实现模型能力评估与生成式 AI 场景应用。

此外，基于大模型的能力矩阵，建信金科还将金融大模型的表现评估细分为通用能力和金融领域能力。其中，通用能力主要考评金融大模型在信息总结、信息推断、文本转换、信息扩展、安全与价值观、复杂推理六个维度的能力；金融领域能力评估主要考评金融大模型在金融领域的任务处理能力，即银行业务基础、保险业务基础、证券业务基础、信托业务基础、基金业务基础。

从业务特性来看，保险能从大模型上借的力甚至可能比银行更大，且速度更快。因为保险产品和理赔流程的复杂度相当高，涉及大量的人与人沟通，并且整个过程非常依赖个人的沟通技巧。通过大模型的引入，对人效的提升和成本的节约效果更为明显。

平安人寿科技总监魏政刚告诉 InfoQ，其内部在探讨技术与业务应用结合点时主要聚焦行业价值链，关注从营销、销售、新业务、核保到理赔的五大环节。比如，平安人寿推出了基于大模型的数字人产品，主要用于协助代理人与客户沟通。这对初入行业的代理人提供了极大帮助，可以指导他们与客户交流、更好地理解客户的需求、痛点及潜在风险，并设计有针对性的解决方案。

“当然，我们对大模型的探讨会以应用为主，不会从纵向上扎到算法层面。”有消息称，平安集团层面正在研发上千亿参数的模型。看起来集团旗下类似平安人寿等机构将会基于集团的统一部署，直接采用其底层的模型能力。

除了实力雄厚的传统金融机构之外，新兴金融科技公司同样不会错过这场金融大模型“抢滩”之战。

2023 年 5 月，度小满率先推出国内首个开源的千亿级中文金融大模型“轩辕”；8 月，马上消费发布首个零售金融大模型“天镜”；9 月，蚂蚁集团 AntFinGLM 亮相。

“蚂蚁集团的大模型策略分为三层：第一，训练自己的金融大模型，配套推出评估集；第二，推出金融智能体框架；第三，基于大模型和框架搭建产业应用（如面向 C 端的支小宝和面向 B 端的支小助），实现服务增强。”蚂蚁集团资深技术专家徐万青表示。

总结下来，金融机构布局大模型主要是以下三种方式：AI 技术基础好的企业投入自研行业大模型；资源、数据、场景基础较好的企业引入通用大模型上，在此基础上做微调，然后输出给内部或同行；而更多中小企业最终会选择直接调用大模型接口，落地一些相对成熟的大模型技术和应用。

机器学习时代的故事重演？大模型落地应用面临 4 大挑战

“金融大模型要往纵向‘卷’，不要再向水平‘卷’，我们不需要那么多大模型，而要真正深入核心，解决金融业务的问题。”魏政刚这样强调。

然而，值得关注的是，现在的很多“智能化故事”，在机器学习时代已经讲了一遍。

从应用角度看大模型，目前仍然主要集中在办公、开发、营销、客服等非核心业务场景，对于投研、交易、风控等核心业务，多数金融机构的相关动作仍然相对保守。例如，即便是对大模型全局化投入的建信金科，目前在场景落地应用方面也是以对内为主、对外为辅。

这与金融行业强监管的特殊属性不无关系，而这种行业特性也在一定程度上制约了大模型在金融业的规模化应用进程。从 IDC 中国人工智能行业渗透度排名来看，过去 5 年一直位列前三的金融行业，2023 年已经被电信和政府反超，仅排名第四。这与最初业界的预判似乎有一定出入。

太平金科保险科技实验室副总经理叶俊锋表示：在机器学习和深度学习的人工智能时代，太平实际上做了大量的实践并产生了成效，OCR、RPA、NLP 等技术都得到了广泛的应用，在 NLP 领域的场景包括客联场景下的外呼机器人，面向内部的知识库问答系统太平百科等等。面对大模型时代，我们在思想上积极拥抱，在场景上业不断探索，但是投入时还是要考虑产出。太平针对大模型制定了一份内部研究报告，对于大模型应用场景和存在的风险进行了详细的分析，并提出了分步推进的规划的建议，目前开展了一些面向内部探索和试用，但在推动应用，尤其是面向客户应用时还是很谨慎的。”

可见，那些在传统 AI 应用方面已经有不错基础的企业和行业，对大模型的接纳度和响应度也不一定要更好。令金融机构既充满期待又望而生畏的因素有很多，总结下来主要包括几点：第一，大模型的可解释性和稳定性不足；第二，数据的质量、规模和安全问题；第三，算力焦虑；第四，人才缺失。

可解释性这道题如何解？

金融是经济的“压舱石”，其稳定性关乎民生，所以行业监管高要求是一道底线。这也是大模型的“黑盒”特性注定在其核心业务场景走不通的重要原因。

以银行最关键的风控场景为例，当某笔申请贷款审批通过或被拒绝，确定了某个贷款额度，背后的原因要能够解释，比如申请人的收入状况、违约记录等等，这些都是依据。但是，大模型在面对千亿级的参数或特征时，背后是没有对这些风险特征进行定义的，其中间恰恰缺少了一层可解释性。

“在大模型兴起之前，我们说服银行内部使用 AI 模型进行审批贷款，就花了足足三年时间。大模型来了之后，一切又要从头开始。”某银行机构技术负责人向 InfoQ 感叹道。

有业内人士举了另一个例子：过去某国有银行使用基于小模型的金融交易对话机器人进行银行间的债务订单意向确定，内部采纳率已经高达 99% 以上。但是，在尝试采用大模型做替代的过程中，他们发现机器人的回答变得特别发散，无法聚焦到具体的交易意向，最终导致效果极差无法替换。

不过话说回来，在 InfoQ 与多位业内从业人员交流的过程中发现，大家绝大多数都相信，大模型进入金融核心场景，也只是时间问题。

光大信托信息技术部副总经理、数据中心总经理祝世虎博士针对可解释性问题，提出了一种目前可行的解决思路：把大模型放在中央，小模型放在外围，大模型驱动具有可解释性的小模型去处理问题，进而解决可解释性的难题。

数据是“背锅侠”？

大模型本身只是一张“白纸”，上面会长出什么样的一幅“画”，由数据决定。

对企业来说，首先是要“有数据”，其次要“有足够的数据”，再者“数据质量要足够高”。

魏政刚指出，语料是制约金融业落地大模型的关键桎梏。“一方面，金融业务复杂性特别高，很多业务知识和经验实际上是在人脑里而不是在系统里，如何把这些信息从业务人员大脑里剥离出来是个非常大的挑战；另一方面，监管制度不断调整，这会频繁对金融机构业务经营活动产生影响，数据会实时变化，这就对 AI 落地的工程性能力提出了非常高的要求。”

中关村科金技术副总裁 & TGO 鲲鹏会学员张杰博士向 InfoQ 进一步介绍，数据问题中容易解决的是预训练数据部分，但指令数据部分是比较难的，对数据质量要求更高。因为大模型时代仍然面临一个法则——好用的不通用，通用的不好用。

“在具体场景下，如果想要把准确度调整到 95％，难度还是非常大的，可能需要专门的指令对数据进行微调。对此，一方面企业需要有自己的场景来逐渐积累；另一方面，可能需要考虑通过行业联盟，共享数据。”

以风控场景为例，上海华瑞银行风控数据团队负责人丁清华表示，目前某个金融机构自身说掌握的数据是特别有限的，可能是某一部分人群的数据特征，或者某个地域人群的数据特征。行业里还没有任何一家机构可以掌握能够达到如此庞大规模和覆盖面的风险特征数据（比如全国所有个人的基本信息、违约记录、消费习惯、交易流水等等），绝大部分全国性数据主要还是在政府机构、监管机构（人行、银保监会等）部门。

“所以，如果要实现风控领域的大模型落地，我认为还是需要自上而下去推进。基于某个领域大模型，各个金融机构再按照自身的客群定位进行参数的微调。”丁清华指出。

然而，在祝世虎博士看来，“数据质量”问题可能只是一个“背锅侠”。“事实上，一是不存在没有质量问题的完美数据；二是数据质量的提升，数据治理只是一方面；三是顶层的数据应用决定底层的数据质量。数据只有用起来，质量才会越来越高，只有形成闭环，数据才能治理好”。祝世虎博士表示，“大模型一方面需要高质量的数据，另一方面也从应用的角度推进了数据质量，并且在机器学习的样本标注中大模型已经有了很好的落地实践。”

消除算力焦虑必须从信创上下功夫

算力是一个基础设施问题，更是一个成本问题。

大模型意味着大算力，但“骨感”的现实是，我国市场面临着严重的算力供给短缺。虽然有机构赶在限购之前囤了不少卡，但根本的自研能力一天不能补齐，“卡脖子”问题就会一直出现。

因此，要从根本上消解算力焦虑，必须从信创上下功夫。可以看到，在国家层面，近期工业和信息化部联合发布了关于算力技术的设置和高质量发展的指导意见，推进中国算力发展一个新时期；在市场层面，我国 AI 芯片行业近年来也在持续发展。

比如，以海光信息为代表的开放路线，此前的深算一号已经具备大模型运行能力。但是，它的算力只相当于英伟达 P100 的水平。虽然海光在第三季度很快推出了深算二号，据介绍已经具有全精度浮点数据和各种常见整型数据计算能力，性能在深算一号基础上翻了一番。不过，如果和英伟达产品相比，也仍然有很大差距。

再比如，华为昇腾，被视为业界算力最强的 AI 处理器。但其走的是自生态路线，也就是说，它只适用于自身生态中的大模型业务。

与此同时，算力部署不是一个单一问题，对于金融机构而言，还要考虑异构算力的融合、机房和网络等其它基础设施的统一建设等等。用建信金科基础技术中心人工智能工程部总经理刘东东的话说——这是一个短板效应比较明显的系统工程。“也就是说，如果算力要好，那么网络、存储、机架密度所有的相关配置都要与之匹配，这样才能把算力价值发挥出来，但这背后不但涉及的成本巨大，并且在落地中也非常复杂且具有挑战。

所以，算力问题可以一分为二来考虑。对于实力雄厚或者希望自建大模型的大型金融机构来说，有钱可以“任性”；但是，如果资源有限，那不妨考虑“借力”。每个金融机构自己去建算力中心、自研大模型显然并不明智，因此越来越多的企业开始采用混合部署方式。也就是说，从公有云调用大模型接口，然后采用私有化部署方式处理本地数据服务。一方面确保隐私敏感数据留在安全域，另一方面也可以节约大量的算力成本。

供需失衡，人才短缺问题不断叠加

无一例外，所有的技术革新都会带来社会人才结构的改变。

比如前不久大数据分析师还是企业的“香饽饽”，眼下却成了一个“危机职业”。技术更迭之快“渐欲迷人眼”，行业的人才缺口却越来越凸显。那么，大模型时代下，企业究竟需要什么人才？

张杰博士认为，大模型于金融机构而言关键在于场景落地，而具体场景对模型调校的经验要求较高，不仅需要算法能力，还需要考虑如何实现算法工程化，结合具体业务进行落地。因此，需要既懂算法、又懂工程、产品和业务等知识的六边形人才。

由此来看，人才短缺问题是不断在叠加的。企业在数字化转型过程中所需的业务和技术复合型人才还未能补齐，企业对人才能力需求的边界却还在不断延展。

“我国传统 IT 人员做的多是交付式开发，这导致大家的产品设计能力和深度建模能力天然缺失。而反观业务人员，同样在逻辑思维、技术思维方面有所欠缺。”魏政刚表示，为了弥合二者之间的鸿沟，平安人寿采取了一系列手段。比如，把 IT 前置到业务部门，让技术更深入地参与到业务中去；再比如，通过轮岗制度，让业务和技术交叉学习。

当然，在有限资源的前提下，人才培养也要有优先级。

太保寿险首席架构师周建华表示，虽然算法人才必不可少，但在大模型的基建方面，由于门槛高、成本大、问题复杂，金融行业自己可能并不需要过多涉足，更重要的是考虑大模型应用。在这方面，两类人才至关重要：一类是智能化战略规划人才，他们能够通过对其他领域的成功案例中的借鉴，对企业自身的战略规划做出部署；另一类是智能化应用人才，他们不需要成为顶尖的算法专家，需要的是智能化应用实战能力。

金融 + 大模型，可以但没必要？

面对这一系列严峻的挑战，技术本身反倒成了最简单的问题。“用或者不用”、“如何用”才是现阶段企业最关心的。

有人发出这样的“灵魂拷问”——模型是不是越大越好？如果小模型就能解决的问题，是否还有必要使用大模型？

“这本质上是一个经济性问题。”叶俊锋举例，在大模型应用的成本中，有一项特别容易被忽视但占比并不小的投入——电费。“所以，当我们站在经济性角度去考虑这个问题的时候，就不难得出这样的结论，如果原有技术已经能够符合业务预期，投产比更优，那就不要急着用大模型去替代。大模型能够切实发挥作用，一定是因为基于大模型产生了新的业务模式，带来新的业务收益，而非仅仅用大模型替代现有小模型。”

祝世虎博士进一步介绍，企业“用或者不用”大模型可以从以下两个方面做考虑：

第一，投入产出比。

虽然如今的大模型被标榜能够降本增效，但效益的产生是依托于一定程度的规模化应用的。有业内人士向 InfoQ 透露，他们内部曾经做过一个实验，让人和 GPT4 分别对一篇文章做总结，最终的结果是，GPT4 的投入成本要高得多。

对此，张杰博士强调，金融机构在立项时要“算好账”，设置好中间的业绩指标、过程指标等等。其中，过程指标的设置相对简单，以文档问答为例，主要看大模型对 PDF 文档或图片解析的准确度，以及解析完成后大模型问答的准确率，这些都可以用一些技术指标来衡量。

而衡量业绩指标最简单的方法是与人工进行比较。例如与人工坐席或与后台职能部门的人员效率进行比较，或者与软硬件成本以及人员成本比较。

“当然，不同企业对投入产出比的衡量指标不太一样。有的企业把大模型视为战略性投入，所以试错容忍度更高。有的企业则不一样，他们会非常关注周期，如短期、中期、长期等不同阶段的成果。具体来说，可以先找到一个具体场景，设定一个破冰期（通常是半年左右的时间），让公司内部人员看到大模型在降本增效方面的价值，然后再进一步推广落地。”

第二，模型的效果表现。

目前大模型的应用落脚点主要还只是辅助人，而不是完全替代人；效率提升的同时，也许还会增加人的工作量。

“对此，我们可以从几个方面来评估为什么要用大模型替代小模型：一是同行在用，企业为了保持竞争力必须采纳；二是需要解决小模型解决不了，而大模型可以解决的问题，比如效能；三是解决虽然小模型能做，但大模型表现更好的问题，比如一岗多能；四是把大模型视为新的生产力，虽然弓箭也是武器，但和现代武器相比差距巨大。”祝世虎博士指出。

在他看来，基于以上，资金实力比较雄厚的大公司会更多考虑效果问题，而中小型企业则更多考虑成本投入。在中短期内，大模型和小模型将会共存。

那么，在具体落地过程中，大小模型如何有机搭配？

徐万青这样比喻：大模型更像是一个文科生，小模型更像是一个理科生，在协同的过程中，可以把大模型作为认知与语言交互的中枢，把各类小模型当作各个领域和场景的专家，然后进行协调调用。

当然，这个问题没有标准答案。找到可结合的业务场景，从中进行突破，这可能比搞大模型本身更重要。

“在过去的智能化应用中，很多公司都因为未能找到业务流程上的痛点，导致创新停滞。解决这个问题并不容易，技术应用必须回到目标和业务价值，生产力的提升如何带来生产关系的改变。”周建华表示。

热思考，冷启动

所以，金融行业广泛采用大模型是“用大炮轰蚊子”吗？目前行业普遍共识是——并不。

“总体上，技术投入与其带来的收益是值得的。这不仅是基于我们的增长预期，也基于我们对技术，尤其是人工智能和大语言模型，能够真正为业务赋能的信心。平安人寿的改革成果也印证了这一点，从中我们可以看到生产力和收入水平的提升。”魏政刚表示。

然而，如何精确计算这种技术投入与业务收益之间的平衡点仍然是个挑战。

“不可否认，企业必须积极拥抱大模型。但是，从投入角度来看，我认为还是应该谨慎投入，不要脑子发热，先小成本地去体验和探索。”叶俊锋认为，企业在这个过程中要做好两个平衡：第一，平衡好短期利益和长期利益；第二，平衡好降本增效和创新。

可见虽然大模型还没有从根本上改变人们的生活，颠覆式的爆款应用还没有出现。但没有人会质疑，它将成为技术发展史上不亚于蒸汽机的伟大创新。

那么，在那个“伟大时刻”到来之前，企业应该如何做好迎接它的准备？徐万青强调，除了技术能力、数据基础、人才储备之外，思维的转变也必不可少。

“就像我们在移动时代来临时，如果只是想着把电脑上的功能和软件照搬到手机上，那必定不会成功。在大模型时代，更要以智能原生的视角重新审视金融业务的运转，所有金融场景都值得被大模型重塑一遍。”

InfoQ 2023 年度技术盘点与展望专题重磅上线！与 50+ 头部专家深度对话，探明 AIGC 创新浪潮下，重点领域技术演进脉络和行业落地思路，点击订阅/收藏内容专题，更多精彩文章持续更新 ing~
另，InfoQ 年度展望系列直播将于 2024 年 1 月 2 日首场开播，持续输出精彩内容，关注 InfoQ 视频号，与行业技术大牛连麦~

创作场景

金融业采用大模型，是“用大炮轰蚊子”吗 | 年度技术盘点与展望