关联关系挖掘是一种具有实际意义的数据挖掘技术,广泛应用于金融、医疗、社交网络、科学数据分析等,将海量多样的数据统一存储起来,利用关联挖掘、时空分析等方式来发掘隐藏在大数据中的有使用价值的关联信息,进而可以做出决策或对事物的发展趋势做出预测。传统的关联关系挖掘算法有 Apriori 和 FP-growth 等,但是各有缺陷,当这些算法无法满足实际应用需要的时候该采用什么方法呢?明略数据前不久发布了一款最新的关联分析大数据产品,InfoQ 采访了这款产品的产品经理任鑫琦,我们可以了解下他们是应用什么算法进行数据挖掘的。
任鑫琦,大数据架构、分布式计算、数据交互可视化领域专家。负责大数据系统高效落地、优化架构和便捷应用工作。2013 年加入明略,先后负责集群管理和日志分析两款产品的研发工作;曾落地实践多个金融、公安领域项目。现在是明略数据技术合伙人兼 SCOPA 产品经理。
InfoQ:在明略数据最新一款产品中有将海量多样数据转化为统一存储模型,那么请问这种处理方式跟数据降维有区别吗?使用的是什么样的算法?
任鑫琦:这种数据转换不同于机器学习中讲的“数据降维”。数据降维,是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示;用于简化机器学习的计算。而 SCOPA 里面的统一存储模型,是将各种类型、各种来源的全部数据,根据领域的语义结构,进行重新组织并存储的方式。举个例子,我们可以将公安领域的几百个库表和数十种轨迹数据,按人、事、地、物、组织重新定义,并将所有数据存进相应的实体和事件里。
InfoQ:什么样的情况下需要做关联挖掘和时空分析?
任鑫琦:将数据表示成实体和事件之后,就可以进行显性或隐形的关联挖掘了。有些数据关联是数据中显性包含的,比如人与身份证号的关联、人与亲属的关联;但更多的关联是隐形的,需要计算的,如人与人之间的同行、同住关系。在进行具体问题的关联分析时,往往会限定一些条件,并且实时发现一定时间范围和区域内的实体和事件,此时需要用到独特的时空分析。
InfoQ:针对实时数据流的处理您们是怎么样做的?
任鑫琦:实时数据一般通过 kafka 或 flume 等消息收集通道,进行实时或准实时的汇总;将数据导入流式计算平台 spark-streaming,进行实时的数据清洗和规则筛选。并将清洗后的数据存储于 hdfs 平台之中,并将清洗后的数据投入到数据流当中去。流式计算在众多领域的应用都很重要,例如公安领域的重点人实时管控、重大时间的实时预警;金融领域的实时反欺诈发现、实时贷款分析等等。通常的流程有如下几部分:1. 实时的数据采集或实时数据流对接,保证数据源的实时性;2. 根据实时的数据,进入实时计算框架;3. 根据实时的计算规则和发现模型,进行实时分析,如果命中异常规则,则进行报警处理。
InfoQ:假如说对实时性高的数据我们叫热度高的数据,使用后需要存储起来的叫热度低的数据,那么明略数据是如何处理热度不同的数据呢?
任鑫琦:我们会用不同的技术框架处理冷、热数据。通常,对于数据实时比对和关联的计算,会在内存或内存数据库中进行;之外全量数据的查询和检索,会考虑 BigTable 与 MPP 的混合架构;而对于冷数据的运算,则会选择批量计算框架,如 spark 或 map/reduce。
InfoQ:明略数据的架构中数据处理层应用了不少算法,最引以为豪的算法是什么?应用于什么样的场景?
任鑫琦:SCOPA 中利用多种基于关联关系的挖掘算法,发现海量异构数据中隐藏的潜在信息。
SCOPA 首先需要从海量的多源异构数据中,抽取跟应用相关的复杂关系。传统的基于特定规则的挖掘算法不能高效的处理现实应用中的数据规模。Scopa 则以知识图谱为辅,大规模机器学习算法为主,采用了自适应的学习模型,从而能从多源异构数据快速而精确的发现关系数据。
在抽取关系数据的数据上,SCOPA 进一步利用图挖掘算法,社交网络分析等技术分析网络,挖掘应用相关的领域知识。例如,为了打击和挖掘集团犯罪,警员需要重点调查集团中的核心人物,为此 SCOPA 提供了一系列高效计算节点中心性 (centrality) 的算法,有效的检查网络中关键节点。为了使得能在大规模图上快速计算节点中心性,SCOPA 采用了一种基于蒙特卡洛随机模拟的计算框架,此框架能支持多种重要的中心性快速估算。
进一步,为了达到预防犯罪的效果,SCOPA 也将引入针对网络的时序分析技术,从而达到实时监测网络中的关键节点,社区结构等的变化趋势。SCOPA 以时间窗为基础,可以根据不同粒度的历史数据,对变化趋势进行预测,使得其具有很强的灵活性,能适应多种不同的应用。
InfoQ:能讲一讲你们的大数据开发团队吗?他们的背景如何?日常工作是怎么样的?还需要什么样的人才?
任鑫琦:我们的研发团队有 80 人左右,大部分来自于北大、清华、CMU、北航、北邮等高校;并且曾经就职于著名互联网公司或大型 IT 外企,在业内有丰富的经验和口碑。我们的研发技术团队不仅仅来自各大高校,同时也都是各领域的佼佼者,有 Apache Kylin committer,Apache Hadoop & Spark Contribution,当然他们也都属于技术圈里面的网红人物,我们算是技术明星的聚集地了。日常工作采用扁平化的管理制度,给员工以最大的自由,帮助员工迸发其创造力和技术能力,CTO 也会同研发团队为明略数据自主知识产权的大数据技术加班加点共同奋斗,我们平日里相比同事的这个关系来讲,更像是兄弟姐妹,大家拧成一股绳为中国的大数据技术奋斗着。不过虽然有如此强的技术团队,我们更加认识到人才的重要性,求贤若渴、共同成功是我们的招聘理念;只要是技术牛人,我们都热烈欢迎。
评论