写点什么

好用的不通用,通用的不好用,金融落地大模型需要“专业型”选手

  • 2023-11-23
    北京
  • 本文字数:4984 字

    阅读完需:约 16 分钟

好用的不通用,通用的不好用,金融落地大模型需要“专业型”选手

采访嘉宾 | 张杰博士 中关村科金技术副总裁 

核心要点:
  • 大模型在特定场景下的专业性暂时没有得到足够提升;

  • 大模型时代的“魔咒”——好用的不通用,通用的不好用;

  • 企业落地大模型需要懂算法、工程、产品和业务等知识的六边形人才;

  • 金融应用大模型不需要“全能型选手”,更多场景下需要把不同技术路线和大模型组合在一起;

  • 应对“幻觉”问题,可以把碎片化、低频知识外挂到向量数据库。


金融行业由于在数字化领域的多年持续探索和实践,数据体量、类型和质量基础较好,加上拥有丰富的业务场景,为大模型的商业化落地应用提供了温热而肥沃的“土壤”。但与此同时,金融行业也有其独特的行业属性和监管要求,这使得大模型在金融领域的应用过程同样充满诸多不可避免的挑战。


在日前接受 InfoQ 采访时,中关村科金技术副总裁 & TGO 鲲鹏会学员张杰博士介绍,目前,金融行业普遍聚焦在初步引入大模型阶段,其中有两个场景落地较快:一是面向企业内部员工的文档问答,另一个是面向各个部门所提需求的自然语言转查询。


张杰博士表示,在具体落地过程中,除了监管之外,算力、数据、场景、人才等方面的挑战也普遍存在。其中,比较棘手的问题是数据和人才。“在具体场景下,需要专门的指令对数据进行微调。对此,一方面企业需要有自己的场景来逐渐积累;另一方面,可能需要考虑通过行业联盟,共享数据。”


针对人才,张杰博士认为,具体场景对模型调校的经验要求较高,不仅需要算法能力,还需要考虑如何实现算法工程化,结合具体业务进行落地。因此,需要既懂算法、又懂工程、产品和业务等知识的六边形人才。


“通用大模型和领域大模型可以类比为一个智商较高、通用语言理解能力非常强的高中生和一个专业性更强的研究生。”张杰强调,“对于金融行业来说,需要的是一个‘研究生’。因为你不需要一个既懂天文又懂地理的大师来帮你卖产品。在更多场景下,需要的是一种组合式创新,把不同技术路线和大模型组合在一起。”


以下是对话全文(经 InfoQ 进行不改变原意的编辑整理):

InfoQ:目前,大模型在金融领域的应用普遍集中在哪些场景,为什么是这些场景?


张杰:目前,金融行业普遍聚焦在初步引入大模型阶段,其中有两个场景落地较快:一是面向企业内部员工的文档问答,另一个是面向各个部门所提需求的自然语言转查询。


许多金融企业内部积累了各种 PDF 文档,但大部分不能统一管理,即使统一管理,也没有将其中的知识点特别好地抽取出来。


财富管理公司的理财场景为例,该场景对理财师专业要求非常高,很多一线销售可能并没有那么专业,因为背后涉及的基金品类非常多,过去,他们在销售过程中往往需要求助中后台人员,但时效难以保障。而通过大模型技术,就能够以较低成本高效地完成这件事。


分布在全国门店的销售人员在遇到问题后,可以直接询问智能助手,得到快速解答。根据目前我们的客户反馈,智能助手的反馈准确率已经达到人工标准,并且效率也大大提升。


总结而言,由于行业监管等原因,现在金融企业选择的场景,不只要具备专业性,还要具备高容错性。在这两个维度交叉下,做文档问答、赋能内部员工是一个较好的切入点。

InfoQ:我们看到目前很多已经广泛落地的场景实际上并不是金融机构的核心应用,这是否意味着大模型距离深入金融业业务层面还有一定距离?或者业务层面并没有明显需求?


张杰:事实上,并不是大模型在技术层面还不能服务于金融业的核心业务,而是任何一个新事物出现,在落地过程中都会有一定周期。


今年大模型的关注点主要聚焦在通用场景,但是在特定场景下,它的专业性可能暂时没有得到足够的提升。另外,金融领域对合规安全和数据隐私方面的要求更高,所以要在核心应用落地大模型还需要一些尝试和探索。当然,除了对内的试水之外,也有少数金融企业正在尝试把大模型应用到对外服务业务中。


比如,在主动营销场景,交互的目标是相对确定的(如信用卡开户等),客户回答的内容也基本上是有限的,如果超出有限范围智能助手就可以停止触达或者把话题牵引回来。并且,当企业能够获取客户的更多信息,还可以灵活实现个性化的营销。在这背后,只需要在前端接一个语音转文本,后端再接一个语音合成,基本上就可以基于大模型完成营销任务。


这种方式跟传统的智能手段相比,不但个性化程度更高,应对能力更强,同时和用户交互的对话轮次也更多。

InfoQ:在您看来,大模型在金融行业规模化落地的具体挑战和壁垒包括哪些方面?金融机构该如何应对?


张杰:首先,最主要的还是监管安全。大模型的鼓励政策和监管政策并行,比如,今年 7 月份七部门就联合发布了《生成式人工智能服务管理暂行办法》。


除了监管之外,算力、数据、场景、人才等方面的挑战也在许多企业中都普遍存在。其中,算力问题是相对好解决的,企业应用场景一旦确定,就可以评估出自己需要多少算力,因为并不是每个场景都要用到上千亿级、百亿级参数的大模型,有的可能几十亿级别就够了。


比较棘手的问题是数据和人才:


其中,数据需要积累,容易解决的是预训练数据部分,但指令数据部分是比较难的,对数据质量要求更高。因为大模型时代仍然面临一个法则——好用的不通用,通用的不好用。


大方向上,大模型通用能力非常强,可以与你交流、作诗和绘画。然而,在具体场景下,如果想要把准确度调整到 95%,难度还是非常大的,可能需要专门的指令对数据进行微调。对此,一方面企业需要有自己的场景来逐渐积累;另一方面,可能需要考虑通过行业联盟,共享数据。


另外,行业所需的人才是比较稀缺的,具体场景对模型调校的经验要求较高,不仅需要算法能力,还要考虑如何实现算法工程化,结合具体业务进行落地。因此,需要既懂算法、又懂工程、产品和业务等知识的六边形人才。

InfoQ:在通用大模型爆火之前,一些专用的 AI 模型已经被广泛范围使用,那么,如果领域大模型就能解决的问题,是否还有必要使用通用大模型?


张杰:通用大模型和领域大模型可以类比为一个智商较高、通用语言理解能力非常强的高中生,和一个专业性更强的研究生。前提是,通用大模型已经打下了比较好的基础。


对于金融行业来说,我认为需要的是一个“研究生”。因为你不需要一个既懂天文又懂地理的大师来帮你卖产品。在更多场景下,需要一种组合式创新,把不同技术路线和大模型组合在一起。比如,大模型加上传统模型、基于规则的方法以及规则引擎或关键词匹配等等,因为在具体落地场景时还要考虑性价比。

InfoQ:您认为金融机构如何在大模型训练投入与效益、效能间实现平衡?


张杰:金融机构在立项时会权衡投入产出比,需要设置中间的业绩指标、过程指标等等。


其中,过程指标设置相对容易,以文档问答为例,主要看大模型对 PDF 文档或图片解析的准确度,以及解析完成后大模型问答的准确率,这些都可以用一些技术指标来衡量。


而衡量业绩指标最简单的方法是与人工进行比较。例如与人工坐席或与后台职能部门的人员效率进行比较,或者与软硬件成本以及人员成本比较。


当然,不同企业对投入产出比的衡量指标不太一样。有的企业把大模型视为战略性投入,所以试错容忍度更高。有的企业则不一样,他们会非常关注周期,如短期、中期、长期等不同阶段的成果。具体来说,可以先找到一个具体场景,设定一个破冰期(通常是半年左右的时间),让公司内部人员看到大模型在降本增效方面的价值,然后再进一步推广落地。

InfoQ:对于企业尤其是金融企业而言,“幻觉”是必须克服和的。您在 FCon 演讲中分享的“外挂知识库技术”,它是如何解决这个问题的?


张杰:对于人脑来说,可以分为两个系统:一个是直觉系统,主要处理直觉本能的问题,可以快速地通过潜意识进行判断,计算效率非常高;另一个是逻辑系统,主要进行推理和深思熟虑的决定。


大模型背后是神经网络,类似于人脑的直觉系统,能够很好地理解语言。但这种神经网络结构不擅长处理大百科类的低频长尾实时性知识。这时候,可以把这类低频长尾的知识,放到“外挂知识库”里进行存储,也就是向量数据库,在需要时再到其中进行资料查找。


总结而言,关键就在于知识的实效性。对于那些普遍的概念和知识更新换代周期较长的知识,需要采用预训练手段或指令微调的方法,将其内化到大模型中;而对于碎片化、低频知识,则可以外挂到知识库中。


此外,还有一类时效性更短的信息。例如信用卡营销场景,用户一个小时前在 APP 上操作,操作到一半就中断了,这时营销人员可能需要给他打电话,询问是否继续进行信用卡申请等等,进而促进转化。


针对这些需要实时查询的数据,既不应该放到大模型内部,也不应该放到知识库里。可以在大模型外部挂载一个领域知识库,然后设置后处理模块来判断哪类实时性知识需要在大数据平台上实时查询。替换这些槽位后,还可以根据不同客户的信用额度授权,以及信用等级确定借款利息等。

InfoQ:可不可以介绍一个我们具体的一个客户案例?


张杰:以我们的一个客户——某财富管理公司为例,他们主要从事财富管理业务,涉及海内外的基金产品众多,而且还不断有新产品上架和老产品下架,对理财师信息积累和更新要求非常高。过去都是依赖后台人员帮忙查资料,但后台只有几十个人,需要服务前台几千个员工,效率较低,并且也无法做到 7x24 小时全天候支持。


现在,只要把基金产品资料输入到大模型中,员工就可以直接通过和知识助手询问得到答案。他们有一个“小诺”机器人,可以在员工的 App 或企业微信里提供服务。据统计,通过“小诺”,每个问题的平均回答效率提升了大约 10 倍,对于后台服务人员的成本投入也有一定程度降低。

InfoQ:在您的 FCon 主题演讲中,还提及“大模型时代下的新型人机协同”,这将是一种什么样的人机关系?如何在这一过程中,把人与机器的价值都发挥到最大化?


张杰:中关村科金最早的业务是做各种场景的 AI 对话,无论是营销、客服还是面向员工的培训陪练,有很多与 C 端用户交互的场景。这些场景原来很多工作都是靠人或机器辅助的,现在有一部分就可以完全交给大模型去做。


比如营销和客户服务场景,原来对客户的分群营销主要依赖后台的客户运营的人员不断进行 AB 测试。但是,客户标签数量非常多,可以达到数百个,而标签的排列组合数量还要更多,测试工作复杂度比较高。


现在,通过人和机器的协作,就可以大大提升这项工作的效率和效果。具体来说,客户分群策略可以通过强化学习来探索,然后针对每个客群,哪些由人先触达,哪些由机器先触达,人和机器在其中如何分工协作,都要有对应的策略。比如,对于高潜、高净值、转化概率比较高的客户,就可以先由人去触达,机器做跟进;相反,就可以先由机器触达,减少人力成本的浪费。


最后是话术的分布,比如信用卡营销、老客户交叉销售等等,应该先说什么再说什么;以及业绩结果如何分析,如何根据业绩结果反过来调整客户分群策略、话术 SOP 设计等等,这些都可以用大模型来实现。


通过这种全媒体方式,由人和机器共同完成一单销售。其中,大模型大脑主要负责智能决策,在具体工作中,小模型又会和人进行无缝协作。

InfoQ:对于金融业大模型落地应用您还有什么样的期待和展望?您认为据此当下企业该做好哪些准备?


张杰:我觉得在金融行业,很多场景都可以用大模型再做一遍。金融行业是知识密度比较高的行业,并且拥有更好的数字基础,对数字化、智能化转型更为迫切,决策层也很认同,因此会是大模型比较好的行业切入点。对于具体企业来说,应该更加重视生态建设,因为大模型使得许多能力组建能够快速完成,封装完成后还可以进行复用和共享,快速地编排组装到一起,从而产生新的应用场景,对于这样的应用组件,生态是非常重要的。

嘉宾介绍

张杰博士,中关村科金技术副总裁 & TGO 鲲鹏会学员。天津大学本硕博学位,主要研究方向为知识工程、自然语言处理,曾出版《知识中台》《知识图谱》两部技术专著,发表学术论文十余篇,发明专利一百余项,主持或参与国家级课题八项,获第十届吴文俊人工智能技术发明一等奖。主持开发过推荐引擎、知识问答系统、客服机器人、大数据风控系统、行业知识图谱等多项商业系统,累计销售额数亿元。

报告下载

《2023 银行数字化转型报告》正式发布,本报告重点探索作为金融服务核心的银行机构,在面临用户消费模式变化、银行业务结构调整、新兴金融机构竞争加剧等因素的影响下,如何推进五大重点场景的数字化转型,并总结输出大中小型银行的两条数字化转型路径,期望为不同类型和规模的银行业企业提供研究内容支撑。关注「InfoQ 数字化经纬」公众号,回复「银行报告」免费获取。



2023-11-23 18:038207

评论

发布
暂无评论
发现更多内容

观测云:企业级监控的全方位解决方案

可观测技术

监控

深入解析仓颉编程语言:函数式编程的核心特性

代码忍者

仓颉

京东商品列表数据接口:电商数据分析的利器

tbapi

京东API 京东商品列表数据接口 京东商品数据采集

贝锐蒲公英智能选路:跨地区远程访问更快、更稳、更可靠

贝锐

远程办公 SD-WAN 智能选路 异地组网

写一篇最近用DM的总结

TiDB 社区干货传送门

迁移

sync_diff_inspector 表结构比较功能探索

TiDB 社区干货传送门

迁移

聚焦于 Melos 数据生命网络,用户如何参与到生态的建设中?

大瞿科技

夏日清凉计划开启,来华为天气领取出行礼包、影音会员等惊喜福利

最新动态

焱融科技发布国产化全闪新品 F8000XC

焱融科技

Web网页端IM产品RainbowChat-Web的v7.1版已发布

JackJiang

即时通讯 即时通讯;IM;网络编程

为什么企业需要IT外包服务

Ogcloud

IT外包 IT外包公司 IT外包服务 IT外包企业

在 K8s 上用 KubeBlocks 提供的 PG 和 Redis operator 部署高可用 Harbor 集群

小猿姐

postgresql Kubernetes operator Redis 消费队列

【YashanDB知识库】服务端是GBK编码,导致从22.2.12.100升级到22.2.13.100失败问题

YashanDB

yashandb 崖山数据库 崖山DB

运维安全审计以及运维安全审计软件定义看这里!

行云管家

安全运维 运维安全 运维安全审计

24年黑龙江正规等保测评机构名单汇总

行云管家

等保 堡垒机 等保测评 黑龙江

一文了解 PingCAP Clinic 诊断服务

TiDB 社区干货传送门

故障排查/诊断

一次 sysbench 长稳测试过程中锁丢失导致事务提交失败的问题分析排查

TiDB 社区干货传送门

故障排查/诊断

职场<火焰杯>测试开发大赛决赛成绩及获奖名单公布!

测试人

软件测试

以用户为中心:观测云的设计理念

可观测技术

监控

观测云:零售行业数据分析的利器

可观测技术

ChatGPT4o 如何速写论文

蓉蓉

gpt4o

探讨大模型前沿技术与商业化落地 |【奇绩潜空间】第3季开始报名

奇绩创坛

人工智能 机器学习 深度学习 大模型 视频生成

Dashboard 热力图显示不准? 如何定位热点相关sql ?

TiDB 社区干货传送门

故障排查/诊断

In-depth analysis-IPQ5332 and IPQ8072 Technical comparison between

wifi6-yiyi

WiFi7 IPQ5332

【第八届 TiDB Hackathon】AI 创新应用 TiDB 黑客马拉松正式开启,一起来用 TiDB 构建未来的 AI 创新应用, 瓜分超 ¥210,000 奖金池!

TiDB 社区干货传送门

一次 sysbench 长稳测试过程中连接中断的问题分析排查

TiDB 社区干货传送门

故障排查/诊断

淘宝商品详情API:商品规格参数的详细解析

技术冰糖葫芦

API Explorer API 编排 api 货币化 API 文档

【程序大侠传】全局变量与并发之战

Disaster

【论文速读】| Arondight:使用自动生成的多模态越狱提示对大型视觉语言模型进行红队测试

云起无垠

从"小白"到"大白":我的TiDB一周年成长记录

TiDB 社区干货传送门

【故障处理】 统计信息收集失败, enconding failed

TiDB 社区干货传送门

故障排查/诊断

好用的不通用,通用的不好用,金融落地大模型需要“专业型”选手_证券_高玉娴_InfoQ精选文章