金融科技是一个非常热的话题,AI+金融科技更是存在巨大的想象空间,但金融场景跟传统的推荐搜索广告等场景又存在较大差异,如何在金融场景中发挥AI的价值?如何让AI更好赋能金融科技场景,帮助各个业务取得效果提升?普惠金融又是如何实现的?本期大咖说,我们邀请到360数科首席科学家张家兴为大家解答上述问题。
金融科技人才如何具备业务思维?
InfoQ:您对于“技术研发人才应该具备一定业务思维”的观点如何看待?
张家兴:首先,我非常认可这个观点,加入 360 数科不久,我在季度总结会上提出的口号就是“业务心态,技术创新”,这是给技术人员提出的口号,我们希望用业务的心态做技术创新。
为什么技术人员一定要具备业务心态呢?我们应该去想技术的价值到底是什么?技术的价值有两方面:一是技术本身的价值,一个新的算法或者系统可以让其他技术人从中受益,这是技术本身的价值;另一方面在于能够创造的业务价值有多大,应该把做技术想成是做业务的一种手段,而不是单纯的技术本身。
其实为了达成业务目标,公司内部的不同人员都扮演着不同的角色。技术人员需要思考自己在其中扮演的角色,只有最终体现出业务价值,那么技术才会体现出价值,这是我认为的技术人员为什么要具有业务思维。
InfoQ:金融科技领域的技术人员掌握业务思维的方法有哪些?
张家兴:作为技术人员,想了解业务第一重要的是态度,其实就是好奇心,并且是广泛的好奇心,对业务本身的运作机制及底层规律感兴趣,并愿意探索。如果没有好奇心,只把自己封闭在技术圈子里,“万般皆下品,唯有技术高”是不对的。在好奇心的基础上,技术人员才可能深刻思考业务的运作机制和底层逻辑。
此外,需要结合技术特点也就是站在业务视角思考技术如何解决业务问题。了解一个问题最好的方式就是思考解决方案,如果能把解决方案想清楚,就会对问题有深刻的理解。
落实到业务层面,当我们想深刻理解业务时,技术人员最好的方法就是反复思考技术如何解决业务问题,再通过解决方案反过来理解业务,这样反倒会有一个不同的视角,甚至可能更加深刻,这是我认为技术人员理解业务最好的途径。
AI 技术在金融科技领域的落地现状
InfoQ:您在 AI+金融科技领域最关注的技术进展是什么?为什么?
张家兴:AI 领域涵盖的技术众多,应用场景不同,重要的 AI 技术也不同。具体到金融领域,经过这些年的实践包括我个人的体会,我觉得有意义的技术主要有如下几个:
一是自然语言处理和语音技术,这个是我认为非常重要的。因为金融科技从业者的一个理想就是要做普惠金融。普惠金融的特点是服务亿万消费者,根据 2019 年末的统计,中国有十亿互联网用户。要想做普惠金融,就需要为十亿用户提供金融服务,通过人工基本是不可能的,这就需要自动化的出现。自动化很重要的一环就是客服的自动化,用对话机器人与用户进行沟通。
在金融里面,这种沟通还包括智能保险顾问、理财顾问等,都可以用对话机器人的方式为用户提供服务。对话机器人的底层技术是自然语言处理和智能语音,这是实现普惠金融的基础。
二是图像技术或者说计算机视觉。通过计算机视觉相关技术理解图像相对成本较低,因为不需要安装传感器,只需要摄像头就可以观察目标场景。金融领域的常见应用包括人脸识别、票据验证等。
三是以联邦学习为代表的旨在打破数据孤岛的技术。要想理解人和世界,数据非常重要,但现实情况是数据往往被分散在不同的应用中,以联邦学习为代表的技术可以在保证用户隐私的情况下将数据很好地利用起来。
如上,只有真正将这些技术打通才能够对整个世界有更清楚的了解,才可以让整个金融体系运行效率更高。
InfoQ:您如何评价 AI 技术在金融领域的落地现状?
张家兴:过去,我有幸做过很多落地工作,我也谈谈自己的看法。
首先是对话机器人技术,这在金融领域属于落地较早、相对比较成功的一类技术,尤其是智能客服领域。大家可以认为基于对话机器人的智能客服技术只能解决最简单的那类问题,但其价值体现在客服场景本身就存在着大量简单问题,对话机器人的出现相当于解决了 90%的问题,所以显得特别有价值。从技术角度来说,这就相当于以量取胜,解决了一个恰好占多数的简单问题,价值就很大。
如果继续深入研究就会发现目前的对话机器人技术远远不够,涉及到一些基于知识的推理和多轮交互才能够完成对话的场景还存在很多尚未解决的问题。
其次是图像领域,随着计算机视觉技术从 2015 年开始逐渐发展成熟,业界在这方面也做了很多有意义的尝试。过去几年,我们看到的比较大的趋势是基于大数据的机器学习得到了广泛应用,包括深度学习、强化学习、图学习等技术。可以说,如果现在的金融科技公司在风控、营销、决策等场景中不采用机器学习模型是比较奇怪的。
最后,机器学习目前也有很大局限,就是对数据依赖性非常大。任何一个场景可能都需要积累几万甚至上百万的训练样本才可能有好的效果。反过来想,机器学习的作用是帮助人类做一些简单决策,但人在做决策时并不需要那么多样本,目前的零样本或者少样本学习做的还不够好,但已经出现了一些可行的思路,比如预训练模型。
InfoQ:在金融领域,数据安全是非常重要的一件事情,360 数科在这方面主要做过哪些工作?
张家兴:360 数科从 360 集团脱身而来,自带安全基因,我们整个安全团队脱胎于 360 集团,我们在这方面主要做了两个工作:攻和防。
在防上,我们自己做了诺瓦云盾系统,该系统可以监控整个公司层面数据的流转和使用情况,只要发现数据被不当使用就会立刻报警,我们会对报警进行详细调查,保证数据的绝对安全。
在攻上,我们会经常爬取黑客泄露数据的网站以确认是否有不法分子再利用我们的数据进行交易。
InfoQ:随着更多技术手段的介入,数据的安全性会发生什么样的变化?
张家兴:虽然有攻有防,但要想彻底解决数据安全问题,最好的方法是保证数据流转的全过程都不被人接触,完全封闭在我们内部。在这种情况下,我们必须实现全面彻底的自动化才可以更好地为用户提供金融服务,这在未来是有可能实现的。
InfoQ:对于希望利用 AI 技术进行改变的金融科技公司而言,您有哪些建议呢?
张家兴:我个人更加建议从细分领域进行布局,因为目前大型金融科技公司已经占据了大部分市场,小公司很难有机会。目前针对小微企业的科技服务还有很多事情可以做,无论是税务、供应链还是其他方面,并没有哪家公司能够完整刻画出小微企业的画像。这就存在一个细分领域的机会,或者从某个维度对小微企业的风险情况进行刻画,但是对于个人信用贷款已经有了很多成熟玩家,但可以在“找到人”上做的更好。
InfoQ:今年的自然语言处理领域由于 GPT-3 的出现而格外热闹,您对该模型的出现以及可能带来的影响有哪些想法?
张家兴:我个人认为 GPT-3 的出现具备非常大的意义,倒不是现在搭在其上的应用可以有多么大的价值,更大的意义在于指明了一个方向:依托大模型、大算力做出的大模型可以有很好的效果,并可以继续沿着这条路走下去。
GPT-3 带来的挑战在于需要的训练数据和算力都非常大,成本高昂,这就意味着只有投入产出较高的领域可以应用该技术,如果原有利润较低可能很难负担。
所以,我认为其为学术界和工业界指出了基于大数据、大算力、大模型的新人工智能范式,这种范式可能更具备商业价值。GPT-3 的出现非常像 2006 年 Hiton 提出了深层网络训练中梯度消失问题的解决方案“无监督训练对权值进行初始化+有监督训练微调”。但大家往往会觉得 2012 年是深度学习的元年,因为当时 ImageNet 首次采用 CNN 取得了很好的效果,但学术界公认的深度学习元年是 2006 年,只是 2012 年被更多人所接受,这是因为 2006 年的深度学习模型还是使用 CPU,而 2012 年已经开始在 GPU 上做事情了。
如今,GPT-3 已经证明了大数据、大模型的效果,但要想在工业界证明其价值还需要后续在算法、系统和数据方面进行努力,比如对话机器人就可能因此出现质的提升,这也可以解决很多因数据不充分而无法训练的问题。
InfoQ:过去,人工智能领域的的很多成果依赖于学术界的突破,您认为这样的模式会一直持续下去吗?工业界目前可以反哺学术界哪些东西呢?
张家兴:在很多领域其实不存在该问题,但在人工智能领域就会出现,这也是该领域的特殊性所在。自 2012 年开始,尤其是 2015 年,人工智能开始在工业界正式落地。
过去,可能更多的是学术界在引领工业界的发展,但我认为现在趋势已经颠倒,工业界已经开始反哺学术界,主要体现在两方面:一是很多重要的人工智能成果诞生于工业界的实验室,比如谷歌和 OpenAI,这些成果引领着人工智能的发展,这是因为目前的人工智能领域越来越依赖数据、算力和模型,而工业界的实验室可以提供更好的条件。
二是工业界对人工智能领域有更大的引领作用。工业界在定义问题,因为工业界有真实的用户场景,所以工业界在定义问题,这些问题让智能客服、自动驾驶等有了出现的可能。但是,这并不代表学术界完全是跟随状态,因为学术界聚集了很多研究人员,可以针对目前出现的核心问题做基础研究,这是学术界在其中发挥的作用。
另外,还有一个值得注意的现象:最早只有学校会设置人工智能的实验室,现在公司也有自己的人工智能实验室,也出现了一些社会性的实验室,不属于任何一个组织,而是由政府资助出现的,这类实验室主要是为了解决一些共性问题,这也会是未来的发展趋势。
普惠金融应该如何理解?
InfoQ:过往,您对普惠金融有过深入了解,您方便分享下普惠金融的整体逻辑和技术发展路线吗?
张家兴:普惠金融这个概念近些年才出现,我们要理解普惠金融需要从历史上进行深入探究。
最初的金融活动主要靠经济拉动,当经济发展到一定程度,某些金融形式就会出现。比如大航海时代,需要做跨洲贸易,由于这种经济活动的风险非常大,股票、保险就应运而生。进入工业时代或者资本主义时代,大家对资金需求较大,现代银行就出现了。
上世纪 50 年代计算机出现之后至今,我们逐渐进入数字时代,金融形势又开始发生变化,以前全部依靠人力完成的工作现在可由计算机提供服务。全部依靠人力提供服务的主要问题是成本高且大数据处理能力较差,在大数据、AI 等技术的推动下,我们终于发现普惠金融成为一种可能,而这背后有三个很重要的基石推动。
一是 2005 年左右,谷歌推出大数据的三驾马车:处理分布式数据的 MapReduce、存储大量数据的 GFS 以及列式存储 BigTable
二是 2010 年左右,以 3G、4G 为代表的移动互联网的出现,从这个时候开始,用户可随时随地接触金融服务。
三是 2015 年左右,阿尔法狗击败了李世石。当然后来阿尔法狗击败了所有围棋高手,人工智能终于开始在工业界落地,当然人工智能的概念很早就出现,只是 2015 这一年发生了标志性事件。在这之后,我们终于可以通过语音、图像等技术,使用机器提供服务,并用机器给金融服务做提效。
通过这三种方式,我们有了大数据处理的能力,有了更好的触达用户的方式,以及更加高效的智能服务。
正是这三大基石使普惠金融成为可能,那么普惠金融的特点是什么呢?以 360 数科为例,我们的目标是做智能普惠的链接,将金融平台与十亿互联网用户连接在一起,这个过程中最重要的能力就是找到人和认准人,找到人指的是找到此时此刻正好有金融服务需要的人,这个过程相当于大海捞针,因为十亿人群中真正有金融需求的人可能仅有几百万,要想找准人就需要做很多工作,常用手段有投放广告、运营和有效触达三种,其中运营是根据注册用户的过往行为判断其是否需要金融服务;有效触达则是依赖 AI 技术与用户进行低成本沟通。
找到人之后就是认准人,判断该用户是否需要金融服务。我们会对人群进行精细划分,并通过机器学习模型划分不同人群的风险级别,或者在未来进行智能催收。
InfoQ:如果面向未来 5 年建设一个企业架构,您有哪些想法?
张家兴:我们首先需要明确任何一个面向未来的设计都是有风险的,我们都知道有一句话是“这个世界是变化的,唯一不变的是变化本身”。
我更喜欢从技术变革的角度思考整个社会的变化。如上所言,自 2005 年开始基本每五年就会出现一次大的技术变革,那么,2020 年往后的五年会发生哪些变革呢?我认为可能是 5G 和 IoT,但没有人能够完整准确的预测这次变革会产生哪些深远影响。
如果从技术范式的角度看待这件事情,我认为大概是 50 年为一个周期,最近的五十年是从 2000 年开始的,特点就是数据+算力+模型,可能在发展过程中会有一些调整,比如大数据+大算力+大模型,如果企业可以积极在这三个方面进行投入,一定会得到应有的价值。
2000 年往前 50 年则是计算机刚出现的时候,特点是以计算加 Design 为代表,包括人工智能刚出现的时候,所有程序都是人基于计算逻辑设计出来的。
当时也在酝酿机器学习,但一直都没有成为人工智能的普遍范式。从 2000 年开始,机器学习开始被广泛接受,当然也是深度学习率先引爆了这个时代。
问答环节
Q:您认为 AI 在金融科技各个环节的应用分别带来了什么样的效果?
张家兴:总体来说有两个关键词:精准化、自动化。所有应用都是围绕这两件事情在做,在触达用户和提供服务的时候尽量低成本和高效率,并将整个链条尽量自动化,比如获客和风控。普惠金融不是没有边界的,只有有能力识别出边际用户中的有效用户,才能最准确地界定这个边界。
Q:对于文本的特征提取,尤其是短文本方面有没有比较好用的模型可以推荐?
张家兴:相对来说,对话机器人中的一问一答是短文本格式,目前主流的模型选择是 BERT,如果考虑线上效率可以对模型进行压缩,但 BERT 确实极大提升了我们的最终效果,如果压缩合理,其效率也是非常不错的。
Q:推荐系统在金融科技中有没有具体应用?
张家兴:这是一个很有意思的话题,推荐系统在电商和内容推荐中起到了非常重要的作用。在金融领域,很多金融产品,比如保险、理财也有很多推荐的工作,但推荐效果的好坏往往需要经过几年才能看清楚。
以理财产品为例,如果单纯只是通过点击来判断产品好坏是片面的,在这个场景中需要及时拿到真实的反馈,但通过用户行为拿到的反馈一定是最直接的,我们认为对金融产品的直接推荐肯定效果不好,当然也不意味着完全没用,如果是金融社区、金融类的问答或者资讯之类的,推荐系统还是非常适合的。
Q:您对于金融科技企业的技术架构搭建有哪些比较好的建议吗?
张家兴:我认为对于依托科技做 TOB 服务的企业而言,中台是非常重要的,无论是数据中台还是 AI 中台,因为在对外提供服务的过程中有很多相似的技术和服务,可以极大节省成本。此外,每个团队都重新做一遍也未必做得好。
未来是一个比拼数据、算力的时代,只有把这些资源更好地集中在一起,模型才能更好地发挥作用,而中台就是一个很好的选择,同时也是组织架构层面很好的一次实践,我们依托中台实现从数据、算力到模型,再到人才的聚集。
嘉宾介绍:
张家兴,现任 360 数科首席科学家。2006 年获得北京大学博士学位,毕业后先后就职于百度、微软、阿里巴巴,曾任微软亚洲研究院研究员。在系统和算法两个方面都有丰富经验。在人工智能、深度学习、分布式系统等多个领域的顶级会议和期刊上(NIPS、OSDI、CVPR、SIGMOD、NSDI 等)发表十多篇论文。
评论