金融行业一直以其特殊的行业属性与业务需求区别于其他传统行业,而在大数据应用方面,金融行业同样也是如此。从建立金融大数据平台的角度来看,其既具有其他传统行业的普遍需求,同时又在其他行业需求不明显的方面要求颇为严格,这自然就为金融企业大数据平台的建立带来了很多困难。那么到底该如何满足金融行业大数据业务需求,并克服种种技术难题,最终建立起能够促进金融企业实现高效数据变现的大数据平台呢?明略数据作为主要面向传统行业的大数据平台供应商,在金融行业中同样具备丰富的技术经验,为此InfoQ 对明略数据产品经理杨威进行了独家专访。
InfoQ:明略在金融行业中有许多成功案例,能否先谈一谈金融行业平台技术研发难点在哪些方面?明略又是如何解决这些问题的?
杨威:金融行业大数据平台的技术研发,其最终目的还是为了满足大数据应用的业务需求。在明略的大数据案例中,大部分的大数据上层应用一般都是由分析应用以及实时型应用构成的。对于数据应用来说,同样也是分为两种,一种是比较传统的基于 SQL 或者 Hadoop 的数据应用,这种数据应用在传统的数据库上有很多。而另一类数据应用,则是基于机器学习和数据挖掘的新型应用。从我们的实践经验来看,这两种应用实际上都对大数据平台的研发有一定的挑战。
其实对于金融行业来说,建立数据仓库实际上一直都有一套比较标准的流程,其中需要做包括建立镜像层、联系层,还需要做汇总,设置数据主题等等这些工作。实际上,在关键数据库和大数据平台上构建数据仓库,他们所面临的挑战是完全不一样的。
比如,在关键数据库上,目前建立数据仓库面临的主要问题在于性能压力,传统的关系型数据库在面临海量数据的时候大都会面临这样的问题。然而在大数据平台上构建数据仓库的时候,性能并不是主要问题,这是因为它本身是分布式的架构,再加上上面很多基于 MPP 架构或者内存迭代式的引擎,所以能够帮助用户快速得出各种分析结果。但是在构建数据仓库镜像层的时候仍然会面临另一个问题,从生产数据库中导出的那部分数据是和生产数据库中的数据同步映射的,这样的话,当生产性的数据被修改的时候,如果仍然使用以往传统方法的话,就只能每天重新统计全部数据,将数据重新导出,造成同步成本大幅升高,同时还会对于生产系统造成更大的压力。
针对上述挑战,明略数据提供了从关系型数据库到大数据平台的增量数据统计工具,它的主要原理是去解析前端关系型数据库的增强更新日志,再把增量更新日志放到大数据平台上去执行,利用基于 HBase 表的映射关系,实现每次仅同步增量更新的数据,而不是全部的数据,大幅度降低更新数据量以及所消耗的性能,同时还能更好的保证数据的实时性。
相对于传统的数据应用来说,新型的数据业务应用同样也面临着许多挑战,比如算法模型建立过程中所遇到的各种困难,以及算法模型机制建立之后,在数据汇集、数据整理、数据清洗、数据格式转换上所耗费的大量开发时间与成本。另外数据模型的输出同样也是问题,这些分析出来的数据,并不给技术人员看的,而是需要应用到前端业务系统中去,这就需要保证数据的实时性、安全性等等。
为了更好的解决这些问题,明略作为大数据平台解决方案供应商来说,也为客户提供了一套以图片化界面为基础的大数据产品,它可以将数据最初的输入、清洗、格式化再到模型的建立与数据输出所有的过程都以图形可视化的方式展现给用户,并帮助用户快速地将机器数据挖掘或者数据应用部署落地。明略不仅仅是为用户提供一个模型,而是要将这个模型最终应用到业务线上,能够让用户最终看见这个模型的价值。
除了上述大数据平台会遇到的问题,其实金融行业还有自己的难点。比如,金融业对于数据安全的要求是非常高的,金融数据的访问权限有着十分严格的管制条件。而明略在这方面已经能够支持企业内全面的数据权限控制,并为用户提供支持引擎级别的数据权限管理工具,这些管理工具会对接到整个平台当中所有的产品引擎,无论在什么地方都会受到权限管理工具的控制。金融行业还有一些比较普遍常见的需求,比如如何将大量数据快速进行关联,或者如何将外部数据快速导入到内部数据平台上来等等。明略也为客户提供了一个一站式的数据作业平台,用户可以在平台上轻松完成外部资源导入、数据入库、设置定时定期数据分析任务等工作。
InfoQ:目前来看,像机器学习等一些新技术在金融行业中的应用情况是怎么样的?
杨威:机器学习现在在金融行业中的应用或者说尝试实际上是非常多的,比如在大数据征信、个人信息管理、以及小额贷风险分析等,另外还有在风险管理方面以及一些风险平台上,比如虚伪交易监测、欺诈分析等等。
其实最早应用机器学习技术的,可能还是偏向于精准营销、精准推荐、优质客户营销等方面。从目前来看,机器学习本身已经是相对成熟的技术了,现在更多的问题还是集中于如何在当前大数据背景下,实际应用到具体的业务场景中去。
从技术的应用过程来看,实际上还是有一些可以提升的地方的。比如消费层预测,实际就是预测一个用户的消费行为,建立一个基于消费行为概率转移矩阵的消费行为预测模型。在这个模型中,可以尝试引入时空的概念,也就是能够在时间上、空间上对这个模型进行一些提升,让预测结果更加准确。另外在金融行业里面经常会用到的对商圈进行分类或者对商家进行分类的算法,同样也可以引入空间的概念。因为这些分类本身是随着地理区域的改变而变化的,因此模型算法就需要适应这种分布的密度变化,生成更加合理的商家划分。
总体上来说,在金融行业中机器学习的用途还是比较广泛的,但是就目前的情况来看,数据缺乏联动性,制约了类似这种新技术数据应用的发展,假如金融数据能够和更多其它行业的数据相关联起来的话,假如客户能够去分享交换一些数据的话,比如金融数据与电信数据的结合限制虚假交易行为等等,相信一定能够出现更多更好的新型数据应用。
InfoQ:今年“互联网 +”的概念被热炒,能否谈一谈明略是怎样帮助传统企业实现互联网化的?
杨威:明略在互联网营销方面有着非常多的技术经验,明略在为很多客户搭建平台时不仅仅是只有一个大数据平台,明略还会帮助客户进行用户行为收集、用户行为监测、用户数据收集与存储分析、关联数据与客户行为等等充分挖掘大数据的商业价值,从最开始的接触客户到最后将分析结果反馈到用户业务系统中,可以说明略为用户提供了一套完整的互联网大数据营销流程。从大数据平台的角度来看,平台上所应用的技术可能曝光度更高,但是实际上明略在这之上所做的工作比人们想象中更多,比如分别在 PC 端、移动端去收集、监测与分析用户行为,或者是帮助一些大型企业将线下数据与线上数据进行打通等等。许多传统的大型企业尤其是零售企业,都拥有海量的线下数据,而明略就可以帮助用户企业将消费者的线上行为与线下行为进行关联,再通过对这些数据的整合实施全面的用户画像分析,并有针对性的进行精准营销。
实际上不仅仅是一般的传统行业,甚至是一些正在向互联网电商转型的零售企业在内,比如苏宁、国美等企业都在借助明略的力量尽可能多的挖掘用户数据价值。明略所提供的用户行为监测不仅包含站内行为数据,还包括站外行为数据,这些数据涉及到广告点击来源、线上订单、线上订单中的家庭或办公地址、线下门店购买记录、电话客服咨询结果等各个方面,明略可以帮助企业用户将这些数据统一整合存储在大数据平台上并进行关联分析,进行更为精准的电商用户画像描绘。
企业的互联网营销还有一个关键需求就是实时性,这就需要依靠实时的数据报告系统,尤其是像上个月“电商 6.18”的应用场景下,用户希望看到每一分每一秒之间的销售数据以及网站访问流量的变化。用户访问情况是一个什么样子。电商企业通常拥有许多的数据库,但在过去没有大数据平台的情况下,数据需要访问很多不同的库来进行关联,使得数据分析的效率变得非常低,许多实时的数据也无法在第一时间实现可视化。而明略始终在凭借着自己的技术经验为更多的企业提供咨询顾问等服务,同时也在不断思考如何帮助客户建立相对实时的数据仓库,如何帮助客户实现在小时级别甚至更低的级别看到数据报表,如何让用户能够更加有效的、更加及时的根据数据分析结果进行业务调整。
关于受访者
杨威是明略数据 BDP 产品经理,在大数据平台建设规划和大数据项目实施落地方面有着丰富的实践经验。2008 年毕业于北京大学计算机系; 2008-2010 年在酷我音乐从事高性能后台服务研发工作;2010 年加入秒针系统后,参与了广告监测平台、广告投放平台、广告交易平台以及大数据平台的架构设计与研发工作。2013 年至今,在明略数据主要负责大数据项目落地与大数据产品研发。
评论