写点什么

NLP 技术在宜信业务中的实践

  • 2020-02-11
  • 本文字数:4472 字

    阅读完需:约 15 分钟

NLP技术在宜信业务中的实践
文章围绕基于机器学习的NLP技术在宜信内部各业务领域的应用实践展开,分享这一过程中的相关经验,包括智能机器人在业务支持、客户服务中的探索,基于文本语义分析的用户画像构建,以及NLP算法服务平台化实施思路等。本文为背景篇,敬请大家阅读~


                    **作者:井玉欣。**毕业于北京大学信息科学技术学院,获博士学位,研究方向包括计算机软件与理论、逻辑推理等,目前就职于宜信技术研发中心,从事人工智能、机器学习、自然语言处理以及知识工程等方面的研究。                </section>            </section>        </section>    </section></section>
复制代码


    <section></section>
<section></section>
<section></section>
**业务背景**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信公司于 2006 年成立于北京,经过 12 年的发展,目前围绕着普惠和财富两大业务板块,陆续推出了许多相关产品,如宜人贷、宜人财富、致诚信用、博城保险等等。


实际上在这些产品的背后,AI 技术已广泛地应用其相关的各条业务线中。


从宜信所处的金融领域的各个子领域来划分,可以分为智能交易、智能信贷、金融信息、金融安全、个性化服务这五个方面,每个方面都有相关人工技术的辅助。


例如智能交易领域,有智能投研、量化分析、自动/辅助交易等技术;智能信贷领域,有能够进行身份识别、用户画像以及智能风控等相关的人工智能产品;金融信息领域,我们会进行知识工程、图谱分析、智能问答等;金融安全领域,要进行反欺诈分析;而个性化服务领域就更广泛了,我们有行为分析、智能营销、推荐与匹配以及智能理财顾问等等一系列比较成熟的 AI 产品。


让我们继续向下探究,在这些 AI 产品的背后,会发现都有一些 NLP(Natural Language Processing, 自然语言处理)技术的影子。比如在智能交易领域,我们需要理解相当多的投研报告,这里就会用到报告理解方面的 NLP 技术;智能信贷领域,可能需要进行风控报告的生成和分析,也要用到相关的 NLP 技术;知识工程领域,要对金融信息进行知识提取,或者为了构建知识图谱进行关系提取、事件提取等;智能营销和智能理财顾问中,则需要智能聊天以及话术提取的处理技术。


可以说 NLP 技术贯穿了各个领域的 AI 产品,其直接原因就是因为我们的业务中存在着大量的自然语言数据,如电销通话数据、客户分析小结、客服沟通内容、内部交流信息以及其他各种文本报告等等,这些数据都是使用自然语言来进行存储的;而且用自然语言文本存储这些数据,还有着其他形式数据无法比拟的一些优点,如图 1 所示,自然语言数据来源丰富,信息表述多种多样,保留信息完整,并且符合用户习惯等等。


1546843032660098763.jpg


图 1 自然语言的特点


但是,我们需要注意到相较于这些优点,自然语言数据也有着数据非结构化不易处理、存在可能的歧义性、语法不规则性、未知语言现象等缺点。另外,结合宜信所处的业务领域,这些自然语言又有一些独特的特点:更强的词汇专业性、更广泛的数据来源、多样的数据形式(录音数据,文字对话数据以及短/长文本的报告、小结等)、较大的数据量以及分布的不均衡性。


这些缺点使得自然语言数据并不容易处理,NLP 技术实施起来难度也不小,但是为什么自然语言数据仍然越来越得到关注,NLP 技术的实施也越来越广泛了呢?


实际上,近几年来,各企业、组织开始在业务中也越来越关注大量非结构化数据中蕴含的高价值信息。我们知道,结构化数据比较好处理,但是经过多年的发展,能够从中挖掘出的信息越来越有限;而我们平时接触到的非结构化数据,其数量级要比结构化数据多出好几倍,里面蕴含着非常多的高价值信息。


典型的非结构化数据包括图片、视频等,另外很重要的一部分就是自然语言文本数据。我们可以从这些自然语言文本中挖掘出大量有价值的内容,例如在前面所述的宜信自然语言数据中我们就可以得到客户信息、产品数据、舆论倾向、策略反馈等。


此外,自然语言处理给我们带来了新的会话交互方式,更确切的说,基于自然语言理解和自然语言生成所形成的对话式用户交互更加自然、高效、吸引人,更加符合用户习惯,这也就是我们所说的 Conversational UI,新的交互方式越来越多的应用在各个领域。比如我们接触到的智能音箱小爱同学,她的表现就非常惊艳。


所以,越来越多的业务开始关注非结构化数据和自然语言数据这些高数量级的有价值信息,它具有的一些特点,提供的一些交互方式,带来了更多扩展的形式,这就导致了自然语言数据越来越重要,NLP 技术越来越必要。


我们给 NLP 技术做一个简单的定位,即 NLP 技术承担了领域内自然语言数据的分类、提取、转换、生成任务,是业务领域内重要、基础的技术服务之一。


    <section></section>
<section></section>
<section></section>
**NLP技术在宜信**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信拥有丰富的业务和产品线,这些产品线产生了大量的人工智能赋能需求。算法团队成立以来,一直面临着不小的项目压力。在整个项目的驱动过程中,团队也逐渐得到成长,结合金融领域的相关业务知识,磨练出从规则分析到统计学算法,再到更加复杂的神经网络,以及 NLP 领域专业技术等一系列技能。


1546843060700092817.jpg


图 2 相关算法技术栈


具体来讲,我们从可以承担基本的处理任务(利用一些现有的规则分析、基本算法模型所进行的词性分析、句法分析)发展到可以利用相对复杂的神经网络模型对外提供文本分类、文本聚类、信息抽取等等一些模型服务,再到目前实施的智能聊天机器人(Chatbot)、用户画像、知识工程等高级场景,技术也随之转向了 transformer、GAN、强化学习、深度学习网络等能力越来越强、结构越来越复杂的模型。这一过程可以看出来技术在不断的进步。


除了技术在不断的发展以外,我们也积攒了一批有价值的语料。在业务环节方面,我们积攒了如电销数据、客服数据、陪访数据、催收数据等语料;在业务领域方面,我们积攒了借贷(车、房、消费),理财(投资、保险、生活、传承、公益)等方面的语料;而在数据形式方面,我们收集了对话类(电话、文字沟通信息)、文章类(小结、新闻、报告)形式的语料。


这是一批比较有价值的语料信息,最终形成了公司内部的专业语料数据,包括公司的产品清单、业务术语表、业务实体表乃至财富领域的财富产品知识图谱等等。我们最终的目的是经过一定的扩充、抽象和加工之后,希望能够形成金融领域的、高价值的、专业数据集,来对外进行赋能输出。比如我们可以输出金融术语表、金融术语同义词林、金融领域相关本体以及各个子领域的知识库等。


此外,我们在服务模式上也有一个演化的过程。早期我们是以项目为驱动的服务模式,这个过程中存在着一些普遍的痛点:


  • 产品众多、业务需求繁杂;

  • 不同的业务相结合,需求不断发生变化;

  • 时效性要求,越快越好,上线稍晚就会影响到需求方;

  • 研发团队人力有限,偶尔还要兼顾环境部署、上线模型监控与维护等工作,整个过程中研发团队忙、压力大,没时间对模型进行有效调优。


那么如何解决这些痛点呢?反思过后,我们走出了重要的一步,即服务的平台化。通过构建一个统一的 NLP 模型平台,对外提供一个统一的 NLP 服务,其优点是:


  • 降低成本,提高效率;

  • 平台上的模型可以灵活组合,快速响应客户的需求;

  • 可以统一相关标准,方便对模型进行集中管理。


通过平台化服务,使我们的工作摆脱了原有的粗放式服务模式,提高了 AI 团队的输出能力。


1546843085620095345.jpg


图 3 服务的平台化


图 3 为我们平台的逻辑功能视图,自底向上分为资源层、预处理层、模型层及场景层。资源层主要包括一系列的语料、标签、预训练模型等资源;预处理层包含一些常用的 NLP 技术,如分词分句、词性分析、句法分析、主题分析、命名实体识别等;模型层则包括一些可以对外提供服务的算法模型,例如文本的聚类、分类、生成、复述等模型,情感分析模型等;最高的场景层则针对一些高级的、可以形成一定闭环能力的复杂场景进行解决方案的构建,例如对于智能机器人、用户画像等复杂场景,我们会形成一个包装好的解决方案,提供给用户使用。


1546843099947038883.jpg


图 4 NLP 平台架构


图 4 为 NLP 平台工程架构。我们构建了一个支持 Python 环境的多任务调度微服务架构,从图中可以看到我们利用 Mongo、HDFS、ES、MQ 等系统构建了相关的数据访问层、模型算法层,在这两层的基础上,在微服务层我们对算法模型进行任务调度管理;外部我们暴露出相关的 Web 接口和 App 接口。此外,纵向来看,我们集成了一些权限管理、多租户管理功能,可以对接企业内部的单点登录、身份认证、权限控制等系统。


NLP技术在宜信的实践背景暂且介绍到这里,接下来我们会为大家介绍NLP技术在宜信应用的两个场景:智能聊天机器人和构建客户画像。敬请大家期待~


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/209


2020-02-11 20:19769

评论

发布
暂无评论
发现更多内容

ARTS 打卡 第二周

一期一会

pandas ARTS 打卡计划 职业发展 LLMs

音量控制:Sound Control for Mac激活最新资源

胖墩儿不胖y

Mac软件推荐 音量控制软件 音量控制

蓝易云:什么是 sudo,为什么它如此重要?

百度搜索:蓝易云

云计算 Linux 运维 root sudo

代码随想录Day59 - 单调栈(二)

jjn0703

5分钟搞懂K8S Pod Terminating/Unknown故障排查

俞凡

Kubernetes 最佳实践 云原生

文心一言 VS 讯飞星火 VS chatgpt (82)-- 算法导论8.1 1题

福大大架构师每日一题

福大大架构师每日一题

探索 React 初体验:从零开始构建你的第一个应用

麦田的守望者

ARTS 打卡 第一周,ARTS我来啦!

闫同学

ARTS 打卡计划

Zebec在Nautilus Chain 开启质押,ZBC 将极致通缩

西柚子

微信多开 WechatTweak for Mac(微信多开、消息防撤回工具)v3.8.2中文版

mac

微信 苹果mac Windows软件 WeChatTweak 微信多开助手

Lightroom Classic for mac(Lrc2021照片编辑软件) 10.3中文版

mac

照片编辑软件 苹果mac Windows软件 Lightroom Classic 2021 lrc2021

SketchUp Pro 2023中文 for Mac(草图大师) v23.0.418

mac大玩家j

建模软件 三维建模软件 Mac软件推荐

Presto 设计与实现(九):SQL 词法分析

冰心的小屋

数据湖 词法分析器 presto 设计与实现

打字练习软件Master of Typing 3 mac激活版下载

mac

苹果mac Windows软件 ​Master of Typing 3 打字练习软件

工赋开发者社区 | 以智能制造为主攻方向,扎实推进新型工业化

工赋开发者社区

ARTS 打卡第 2 周

Johnson

AI arts

Zebec在Nautilus Chain 开启质押,ZBC 将极致通缩

鳄鱼视界

基于RUM高效治理网站用户体验入门-价值篇

Yestodorrow

可观测性

Premiere Pro 2021功能 视频编辑软件pr2021中文版下载

mac

苹果mac Windows软件 视频编辑软件 Premiere Pro Premiere Pro 2021

技术思维和产品思维

老张

产品思维 技术思维 解决问题

寻找注册配置中心最佳评测官,赢取丰厚奖品 | 测评开启,开发者请速速集结

阿里巴巴云原生

阿里云 微服务 云原生

工赋开发者社区 | 工业智能化背景下制造业大数据的应用

工赋开发者社区

R语言之缺失值处理

timerring

R语言

Mac电脑fcpx视频剪辑推荐Final Cut Pro 最新中文激活版

mac大玩家j

视频剪辑 Mac软件 视频编辑处理工具 视频处理软件

蓝易云:如何使用 Fail2ban 防止对 Linux 的暴力攻击?

百度搜索:蓝易云

云计算 Linux 运维 SSH Fail2ban

代码随想录Day61 - 完篇总结

jjn0703

如何学习

石小天

学习 学习方法 如何学习 技术学习

Zebec在Nautilus Chain 开启质押,ZBC 将极致通缩

威廉META

代码随想录Day60 - 单调栈(三)

jjn0703

3D渲染动画制作 KeyShot 2023.2 Pro 补丁安装教程

胖墩儿不胖y

3D渲染 动画制作 Mac软件 渲染工具

【INFINI Workshop 深圳站】8 月 31 日一起动手实验玩转 Easysearch

极限实验室

深圳 INFINI Labs Workshop 极限科技

NLP技术在宜信业务中的实践_文化 & 方法_井玉欣_InfoQ精选文章