写点什么

海量数据与海量金钱:大数据在金融领域的作用

  • 2017-11-05
  • 本文字数:3804 字

    阅读完需:约 12 分钟

本文要点:

  • 在考虑大数据的 3V 特性——Volume、Velocity、Variety 时,很难有哪个行业的要求与金融领域指导方针如此完美贴合。
  • 新的规范和汇报标准的持续流动为金融行业提供了新的数据源和更加复杂的维度,比如 XVA。
  • 一些大型金融机构曾在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素,其中很多方面在其他行业也都存在。
  • 市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。
  • 尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了市场趋势和市场行为的熟练模型。

本文首发于杂志 IEEE IT Professional IEEE IT Professional 提供当今战略技术方面的坚实的同行评审文章。为了应对管理高可靠、高弹性企业的挑战,IT 管理者和技术领导者依赖于 IT 精英提供的先进解决方案。

在说起高科技驱动的行业时,人们——至少有不少人——首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性 [1]——Volume、Velocity 和 Variety——时,很难有其他行业能够比金融行业更加贴近这些特性。例如,仅 2016 年 4 月一个月,外汇(ForEX)市场每天平均交易额为 1.5 万亿美元 [2]。外汇市场提供了世界各国货币之间的实时汇率,促进了全球贸易和结算。

在本文中,我会讨论大数据方法与金融行业的相关性,描绘出金融行业采用大数据面临的挑战和科技发展的未来机会。尽管很多应用领域都与消费金融相关,由于金融行业的交易体量和资金体量的缘故,本文集中在企业银行方面(金融市场、企业信贷、交易等)。

金融行业大数据

我们先检验一下大数据的 3V 特性与金融的关联:

  • Volume:TB 甚至 PB 的数据才被认为达到大数据级别。金融行业产生了大量的报价、市场数据和历史交易数据。单是纽交所一天就会写入超过 1 TB 的数据 [3]。
  • Velocity:数据存储或者处理速度达到每秒 100000 次以上才认为符合大数据标准。 对于金融市场而言,如此高速的产生数据不算什么难事。而且,系统处理交易数据的速度越快,他们交易的速度就越快。
  • Variety:这要求大数据算法能够处理不同的数据格式和数据源。在企业银行中,机构要同时处理参考数据(比如法人实体)、交易和市场数据、客户要求(通过电子或者声音的形式提出)以及其他很多数据源。

从大数据的视角来看,金融行业更有意思的地方在于,新的规范和汇报标准形成的持续流动为金融系统提供了新的数据源和更加复杂的维度。

这使得金融行业成为数据科学家施展拳脚的地方。

除去周末的短暂时间窗口,前文提到的外汇市场全天 24 小时交易,从澳大利亚悉尼的早晨到美国纽约的夜晚。另外,算法交易已经在金融市场以各种形式存在了很长时间。纽交所在 20 世纪 70 年代初期引入了其指定的订单周转 (DOT) 系统,用于将订单周转到交易操作台,此前这些都是手动执行的。现在,算法交易系统将很大的订单拆分为较小的订单,并基于时间、价格和体量自动执行交易,市场参数得以优化。

在连续的基础上,大量数据的处理被用于金融机构的报告。

  • 银行和金融市场规范越来越频繁地要求计算复杂的度量指标,如 XVA(基于交易对手信用风险、融资成本、保证金等对衍生工具的估值调整)。这些指标被用于设定银行的最低资金保留额度,而后者直接影响银行利润率。
  • 分析时序交易数据,对市场和用户行为建模。例如,绘制交易量随时间的变化图有助于预测信用违约的可能性,为银行节省贷款资源。

一些大型金融机构在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素 [4],其中很多方面在其他行业也都是相关的。首先,一些金融行业管理者认为,大数据只能解决技术问题而不能解决业务问题。然而,数据是由业务产生的、数据结果用在业务上,很明显技术是支持业务的。一些人不理解如何从数据流中获得价值,而另一些觉得大数据方法可以提升技术效率但是对于盈亏底线用处不大。然而,大数据方法可以提供的深度分析能够直接支持业务增长并提升效率。金融行业从来不是数据科学家的心之所往,所以一些金融机构在为自身寻找和吸引技能型人才方面困难重重。最终,即使是金融机构具备变革意愿,但他们并不清楚要让企业转型利用大数据方法应该如何开始、从何处开始。

然而,根据最近 IDC[5] 的研究,银行业位于行业投资大数据研究排行榜前列,如图 1 所示。并且,金融科技公司,或者 FinTech 公司,正在为银行在资产和财富管理方面的大量需求开发解决方案和产品;图 2 给出了基于普华永道报告 [6] 的各领域 FinTech 公司的比例。追随这一趋势,围绕着金融数据提高业务效率的其他应用,研究和算法也有很大进展。我们接下来重点介绍其中几个。

图 1. 2016 年大数据分析市场(1310 亿美元)(Original data from IDC5)

图 2. 不同领域 FinTech 公司的大致比例 (Original data from PwC6)

市场交易模式

市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。本节展示一个例子。

除息日(也称为 X-Day)是存托凭证(DR)的卖方有权获得最后一次派息的第一个交易日。在除息日之前,DR 的买方将获得分红。美国 DRs(即 ADRs)是由非美国公司在美国市场交易的金融工具。因此,股息存在双重征税负担:美国的税收和发行 ADR 的国家的扣缴税款。其结果是,投资者有动力在除息日之前卖出 ADRs,并在除息日之后买入。当然,税收政策对 ADR 市场的稳定性有很大的影响。

在最近的研究中,Bi-Huei Tsai 对 ADR 市场进行了测验以了解市场交易量 [7]。此类算法对此类市场进行的分析可以基于最近市场交易量提供最优交易时间。作者分析了在派息日期间(派息日前后 10 天)的 ADR 交易量(每日交易量减去每日“正常”交易量)的超额比率,结果与派息税率正相关,为税收政策对 ADR 市场的影响提供了模型。交易者和政府税收当局都可以利用这一模型制定策略。

实时信用评级

这个应用并非金融行业独有,但与服务消费者和中小企业的银行有关,那就是实时处理数据以进行信用评级。例如,Klarna、Lenddo 和 Credit Karma 这样的 FinTech 公司都提供有关在线信用评级和认证的服务。在最近的工作中,王莹、李思明和林张希(音译)研究了电商的实时信用评级。

任何申请一大笔钱的人都会很熟悉处理流程。传统上,银行从申请表和其他渠道收集申请者的信息。专家分析这些信息并提出此客户的信用建议,其中包含了利率和偿还条款。申请者和银行可能会有协商,可能为了整体而在不同贷款参数做妥协。签订贷款合同之后,客户可以利用这笔钱并在未来偿还贷款。

不仅是数据收集和条款协商浪费时间,而且有两个因素使得一切更加复杂。首先,很多用于信用评级的数据中心是按月更新的,所以银行可能无法从这些来源得知客户最近的财政问题。而且,非金融因素有可能增加违约风险。作者研究了几个与大型电商平台有关的因素:登录平台频率、附加合同信息(包含手机号码)的提供、上月交易量、整体成功交易数量、成为平台客户的时长、客户的业务领域等。基于这些参数,作者对历史数据进行线性回归分析,得到了违约概率和不同参数的关系。结果是可以帮助电商平台基于用户在线行为进行信用评级的模型。传统的中心化信用评级数据库中甚至都没有这些参数。

银行业更加高科技

前述两个例子绝没有对金融领域的大数据算法应用做出限制。尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了全面、自适应的市场趋势和市场行为模型。反过来,这些模型促进了交易人员、金融机构和其他玩家做出全面和快速的决策。

IT 精英的机会在于,为快速增长的行业开发新的技术和解决方案。从 2014 年到 2015 年,FinTech 融资增加了不止一倍,预示着这一行业的机会和行业对于产品及解决方案的需求。图 2 的大致分类为产品、流程和客户体验方面的创新留下了巨大的空间。想到高科技驱动的行业时,首先想起的是金融行业,这样的日子可能不远了。

关于作者

Jennifer Q. Trelewicz 是德意志银行技术中心的技术风险官和负责风险技术的 CTO。她感兴趣的研究领域包括大数据、高性能数值算法和创新管理。
Trelewicz 曾在业界领先的科技公司如 IBM、微软和谷歌工作,在不同国家拥有多项授权专利,在不同的国际杂志和参考刊物上发表过文章,也在主动志愿支持 IEEE。她拥有亚利桑那州立大学的信号处理博士学位,还是国际荣誉协会 Tau Beta Pi 和 Phi Kappa Phi 的终身会员。可以通过邮箱 jentre@ieee.org 联系她。

感谢薛命灯对本文的审校。

阅读英文原文 Big Data and Big Money: The Role of Data in the Financial Sector


[1] D. Laney, 3D Data Management: Controlling Data Volume, Variety and Velocity, MetaGroup, 2001.
[2] Triennial Central Bank Survey: Foreign Exchange Turnover in April 2016 , Bank for Int’l Settlements, Sept. 2016;
[3] Where Have You Been All My Life? How the Financial Services Industry Can Unlock the Value in Big Data, PwC FS Viewpoint, Oct. 2013.
[4] T. Nath, “ How Big Data Has Changed Finance ”, Investopedia, 9 Apr. 2015;
[5] Semiannual Big Data and Analytics Spending Guide, IDC Worldwide, 3 Oct. 2016.
[6] Blurred Lines: How FinTech Is Shaping Financial Services, PwC Global FinTech Report, Mar. 2016.
[7] B.-H. Tsai, “Examination of Ex-Dividend Day Trading Using Big Data of American Depositary Receipts”, Proc. 2nd Int’l Conf. Advanced Cloud and Big Data (CBD), 2014, pp. 34–38.

2017-11-05 17:154107

评论

发布
暂无评论
发现更多内容

一图看懂华为云DevCloud如何应对敏捷开发的测试挑战

华为云开发者联盟

微服务 敏捷开发 测试 云服务 华为云

求组队,PK华为HMS全球应用创新大赛!

InfoQ_e92167c73263

android

架构师培训 -08总结 数据结构算法,网络通信协议,非阻塞网络 I/O,数据库原理

刘敏

视频丨包不同的沙雕敏捷之砸锅卖铁买兰博

华为云开发者联盟

程序员 运维 敏捷 敏捷开发 技术人

BFC "苦"前端久矣!

coolion

CSS 大前端

使用Spring Validation优雅地校验参数

Java课代表

springboot

判了!中科大博士写游戏外挂赚了12万获刑,被抓才知道帮团队赚了300万……

程序员生活志

游戏开发 游戏 游戏外挂 新闻

要都练基本功

架构师

【解构系统设计面试】什么是系统设计?以及如何设计一个新鲜事系统?

罗远航

系统设计

第八周总结

LEAF

面试官问:僵尸进程和孤儿进程有了解过吗

Java小咖秀

Linux 学习 面试 进程 经验

轻量级BI应用-Superset实践

Jackchang234987

BI 数据产品

MySQL的索引基础知识

guoguo 👻

第8周回顾

慵秋

单向链表合并算法

走过路过飞过

架构师训练营第8周学习总结

TH

该学一学了!零基础入门Docker

程序员的时光

Docker

架构师训练营week08 作业

GunShotPanda

架构师训练营week08 学习总结

GunShotPanda

第八周总结

Acker飏

知识点梳理:聊聊iOS SDK数据采集那点事儿

易观大数据

判断两个链表是否合并

Acker飏

JVM详解之:HotSpot VM中的Intrinsic methods

程序那些事

Java JVM GC

信创舆情一线--50多家科技公司源代码泄露

统小信uos

Java中的模板设计模式,太实用了!

BUZHIDAO

Java

Developer 转型记:一个开发平台的“魔力”

华为云开发者联盟

华为 AI 开发者 开发者工具 华为云

2行代码搞定一个定时器!

简爱W

Java SSM 框架常见面试题

老大哥

Java

揭秘淘宝平台广告策略,拆解最佳投放实践

华为云开发者联盟

数据分析 广告 用户增长 淘宝 电商

百万并发「零拷贝」技术系列之经典案例Netty

码农神说

Java Netty 零拷贝

一次线上JVM Young GC调优,搞懂了这么多东西!

南方有乔木兮

海量数据与海量金钱:大数据在金融领域的作用_大数据_Jennifer Q. Trelewicz_InfoQ精选文章