写点什么

NLP 在银行业的应用现状

  • 2020-01-08
  • 本文字数:4035 字

    阅读完需:约 13 分钟

NLP在银行业的应用现状

银行业作为高度数据化的行业,加之业务规则和目标明晰,是人工智能和云计算等数据驱动技术的最好应用场景。本文作者 Raj Shroff 为我们讲述了人工智能分支之一——自然语言处理落地银行业的三个应用场景:智能文档搜索、投资分析、客户服务与洞见。InfoQ 中文站翻译并分享,以飨银行业读者。


为了实现某些文档处理、分析和客户服务活动的自动化,银行业正在使用人工智能的一个分支,称为自然语言处理(Natural Language Processing,NLP)。三种应用场景包括:


  • 智能文档搜索:在大量扫描文档中查找相关信息。

  • 投资分析:收益报告和新闻的日常分析自动化,以便分析师可以专注于超额回报。

  • 客户服务与洞见:部署聊天机器人来回答客户的询问并了解客户的需求。


在本文中,我们将介绍银行业在这些方面的实际情况。首先,让我们回顾一下自然语言处理的能力。

自然语言处理概论

自然语言处理是人工智能的一个分支,它使计算机能够理解人类的语言,并作出相应的反应。这包括训练计算机处理文本和语音,并根据上下文解释单词、句子和段落的含义。

人机交互

人机对话可以按如下方式进行细分(稍后我们将会讲到具体的人工智能方法):


  1. 我们提供文本或语音输入(例如,在聊天机器人界面键入或与智能音箱通话)

  2. 计算机将文本 / 语音转换为它能理解的格式(例如,将语音转换为文本,将单词转换为向量)。这有助于计算机对不同的单词进行聚类和分类。

  3. 计算机利用自己的数据集理解语义和上下文。

  4. 计算机确定适当的响应,并将其转换为我们能够理解的文本或语音,然后对我们作出响应。


实际上,我们每天都与使用自然语言处理的应用程序进行交互:


  • Google 翻译:我们输入文本和语音,Google 就为我们进行翻译。

  • Gmail 智能撰写:你可能会注意到,当你开始键入句子后,Gmail 会给你提供句子其余部分的建议。这个功能是使用电子邮件主题和以前的电子邮件来建议相关文字。有点吓人是吧?但也有点炫酷。

  • Grammarly:这是一种流行的语法检查器,很多人在用,因为它比 Microsoft Word 的拼写检查好用得多了。

  • 智能音箱:不,你和 Alexa 的对话并不是什么魔术(抱歉哈,说了实话)。

理解、处理和生成语言

自然语言处理实际上是一个涵盖性术语,包括两个相关方法:自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。


自然语言理解找出文本和语音背后的含义。你可以把这个想象成读或者听。这包括从人类那里获取非结构化文本和语音输入,并将其转换为计算机能够理解的结构化格式。例如,当你向 Alexa 询问天气预报时,它就会使用自然语言理解来判断你所说的内容。


自然语言生成是指计算机生成的文本和语音。自然语言生成将结构化数据转换成人类能够理解的文本和语音。继续我们前面的例子,Alexa 使用自然语言生成来回答:“今天是晴天,你想订购太阳镜吗?”

用于自然语言处理的人工智能方法

自然语言处理通常会与其他人工智能方法一起使用,如神经网络深度学习光学字符识别。两种流行的自然语言模型是 Word2vec词袋模型(Bag of Words)。


如果不涉及技术问题,那么神经网络就是机器学习的一个子集。当用于自然语言处理时,它们可以对文本进行处理,对单词进行分类,对相似的单词进行聚类,并将单词和短语与含义相关联。深度学习方法(即多层神经网络)也被使用,如递归神经网络


光学字符识别(Optical character recognition,OCR)使计算机能够识别扫描文档中的文本。光学字符识别可以与自然语言处理一起用于分析扫描文档或手写文本。


使用各种自然语言技术来确定语法规则和词义。语法分析(Syntax analysis)包括确定单词的语法规则,并根据相似性对其进行聚类。语义分析(Semantic analysis)包括派生含义,并用于生成人类语言。语义分析颇具挑战性,因为人类语言规则很复杂。单词和短语在不同的上下文中有不同的含义。而口语、熟语和挖苦使问题变得更加复杂。


词袋模型相关算法是流行的自然语言技术,可以根据类别或类型对短语和文档进行分类。词袋模型只是简单地计算每个单词在文档中出现的频率(即计数)。然后,该算法比较文档并确定每个文档的主题。这可以用来训练神经网络。据 Google 称,前面提到的 Gmail 智能撰写使用了词袋和递归神经网络模型。搜索引擎也使用了这些技术。


Word2vec 是另一种流行的自然语言模型。它是一个两层神经网络,对文本进行分类以确定其含义。它将单词转换为计算机可以理解的数学“向量”。向量转换是必要的,因为神经网络在使用数值输入时效果会更好。


给定一个足够大的数据集,将表示相似单词的向量分组到一起,然后用数学方法来检测相似单词。如果部署得当,Word2vec 可以根据过去出现的情况以高精确度来推断单词的含义。这对于文档搜索、情感分析、甚至是建议接下来是哪些单词来完成一句话,都很有用。

银行业如何使用自然语言处理


银行业可以将自然语言处理应用到大量的文本和语音数据,以提取信息、获得洞见并简化手工任务。虽然节省时间和成本是显而易见的好处,但识别关键信息的能力(众所周知的大海捞针般的能力)可以使银行成为差异化竞争者。


以下是银行业应用自然语言处理的三个领域。

智能文档搜索

摩根大通(JP Morgan Chase)的 COIN(Contract Intelligence,意即合同情报)软件使用自然语言处理来帮助银行的法律团队搜索和审查大量法律文件。


据报道,摩根大通的 COIN 可以为银行的法律团队节省 360000 小时(即 15000 天)的文档搜索任务。例如,它可以提取关键数据和条款,以帮助信贷员审查商业贷款协议。


显然,COIN 经过训练,可以识别银行法律团队标记为重要文件中的关键信息(属性)。这样使得软件能够从不同结构的文档中提取关键信息。摩根大通声称,它在数秒内从 12000 份商业信贷协议中提取了 150 个相关属性。


这款软件是摩根大通内部使用的,因此并不予公开软件的具体细节。但我们可以推测,它可能是通过自然语言处理(在文档内搜索)、光学字符识别(在扫描文档中识别字符)和机器学习(对文档中的数据进行分类和聚类,并随着时间的推移改进搜索算法)提供支持。


这些方法可以应用于其他银行业务。它可以帮助银行提取他们没有时间跟踪的客户数据类型。这些数据可以帮助预测客户的需求并识别交叉销售的机会。它还可以加速需要文档分析的了解客户(Know Your Customer,KYC)流程,从而使客户更容易上手。


译注:了解客户(Know Your Customer,KYC),要求金融机构实行账户实名制,了解账户的实际控制人和交易的实际收益人,同时要求对客户的身份、常住地址或企业所从事的业务进行充分的了解,并采取相应的措施。

投资分析

银行业的证劵研究部门正在使用自然语言处理技术,从堆积如山的公司报告和电话会议中寻找有价值的洞见。


银行此前聘请了大量分析师来梳理收益报告和其他文件,并将相关数据输入数据库和估值模型。


现在,银行业正在使用自然语言处理工具,可以做到一次“阅读”数百份文档,并为人类分析师总结关键信息。语音分析工具可以“监听”分析师的电话会议,以确定公司管理层讲话背后的基调和情绪,从而为股票分析提供洞见。这些工具节省了大量的时间,使分析师能够专注于超额回报。


银行业还使用自然语言处理进行情感分析。这些工具分析大量的新闻和社交媒体的帖子,从中提取关键的洞见,以确定公众对公司的看法,或跟踪市场对重大事件的反应。这些及时的洞见可以为分析师的建议提供信息。


银行要么使用内部开发的工具,要么使用供应商开发的工具。一家名为 Datminr 的供应商声称,他们可以通过分析社交媒体和财经新闻来识别相关信息,包括意外新闻、新兴趋势或风险。


例如,在销售方面,自然语言生成工具会根据盈利报告和新闻主动生成报告。

客户服务与洞见

各大银行正在通过聊天机器人引入某种程度的客户服务自动化。2019 年初,美国银行(Bank of America)推出了移动虚拟助理 Erica,很快通过美国银行的移动应用积累了 100 多万用户


Erica 接受语音和文本命令,并结合预测分析和自然语言处理,以帮助客户:


  • 查询余额和转账。

  • 按需搜索过去的交易记录和账户信息。

  • 跟踪消费习惯(可能使用预测分析,这是鼓励更多聊天机器人使用的增值手段)。

  • 帮助客户管理定期还款(recurring payments)或延迟还款(late payments)。


聊天机器人让客户能够访问自己的账户信息,并在手机上进行基本交易,而不是使用网上银行或访问当地的分支机构。通过一个干净的聊天机器人界面进行交易,也可能花费更少的时间。


对银行业来说,更大的胜利将是使用自然语言处理来获取客户洞见。使用上述与智能文件搜索和情感分析相关的方法,银行可以更好地理解与预测客户需求和痛点。情感分析工具可以监控社交媒体,了解公众对银行的评价。文档搜索工具可以分析反馈表单和客户信息,以相应问题,提供量身定制的产品,并增加客户保留率。

银行业高管的最大收获

银行业高管认识到,有了自然语言处理,日常文件分析、研究和客户服务自动化才能实现自动化。


节省成本只是冰山一角。通过更快地分析文本和语音数据,提取更多关于客户和市场的可操作的洞见,银行可以更好地为客户服务,进行更好的投资。更大的市场份额和收入的潜力才是真正的差异化因素。


尽管我们并没有涵盖所有可能的用例,但银行业可以将自然语言技术应用于任何处理大量文本或语音数据的任何功能。例如,在合规性、风险管理或订单执行方面就有许多应用程序。


关键的考虑因素包括,是在内部构建人工智能和自然语言处理工具,还是从人工智能供应商那里获得软件许可证。如果在内部构建的话,则需要数据科学家、开发人员和组织人工智能策略。尽管这需要时间,但内部开发的解决方案可能比供应商产品更能满足银行的需求。此外,还必须解决跨部门的数据质量和可用性的问题。


鉴于自然语言处理可以应用于范围广泛的银行业务,跨部门应用这些解决方案的银行很可能会获得更高的投资回报。

作者介绍:

Raj Shroff,撰稿人,专门撰写有关人工智能和金融科技如何帮助企业和社会的文章。


原文链接:


https://towardsdatascience.com/natural-language-processing-in-banking-current-uses-7fbbaee837de


2020-01-08 10:005573
用户头像
刘燕 InfoQ高级技术编辑

发布了 1103 篇内容, 共 433.6 次阅读, 收获喜欢 1912 次。

关注

评论

发布
暂无评论
发现更多内容

NFTScan 与 UniPass 达成合作伙伴,双方在多链 NFT 数据方面展开合作!

NFT Research

NFT

Macbook技巧,Type-c接口失灵怎么办

互联网搬砖工作者

解决运行VMWare虚拟机报错“打不开 /dev/vmmon:断裂管道”

互联网搬砖工作者

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

Apache Flink

大数据 flink 实时计算

阿里云AIoT物联网平台如何实现设备全球就近接入——设备接入类

阿里云AIoT

运维 监控 物联网 中间件 数据采集

PS 2023版本 24.2有哪些新功能?增加了哪些相机配置?

Rose

ps ps 2023 Photoshop 2023下载

物联网数据应用开发最佳实践——数据价值类

阿里云AIoT

数据挖掘 物联网 存储 数据管理 调度

大资管行业数字化转型解决方案 | 行业方案

袋鼠云数栈

大数据 数字化转型 解决方案

火山引擎DataLeap:数据秒级生产,揭秘电商实时数仓最佳实践!

字节跳动数据平台

数据治理 电商 数据研发 企业号 3 月 PK 榜

基于声网 Flutter SDK 实现互动直播

声网

flutter

温湿度计设备通过阿里云IoT物联网套件上报数据到钉钉群机器人实践——数据价值类

阿里云AIoT

JavaScript Serverless 物联网 机器人 机器学习/深度学习

技术详解 阿里云AIoT物模型支撑设备规模已超亿级——设备管理运维类

阿里云AIoT

运维 安全 监控 物联网 芯片

有效载荷标识与内容类型--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 有效载荷标识

浅谈DWS函数出参方式

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

全能代码编辑器:CodeRunner 最新激活版

真大的脸盆

Mac 代码编辑器 Mac 软件 代码编辑 编辑代码

实战|网站监控如何做好监测点管理与内网数据采集

云智慧AIOps社区

安全 监控 监控宝 云智慧 网站监控

阿里120W年薪架构师力荐750页微服务架构深度解析笔记

程序知音

Java 微服务 编程语言 后端技术

GuavaCache与物模型大对象引起的内存暴涨分析——设备管理运维类

阿里云AIoT

缓存 算法 监控 物联网 数据格式

共享订阅--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 共享订阅

NLP在银行业的应用现状_AI_Raj Shroff_InfoQ精选文章