现实中的公共安全行业同样是面对着纷繁复杂的表象,业务人员如同电影中的侦探,一直处于与各种犯罪嫌疑人的博弈中。
公共安全行业主要通过人、物、时空、组织、虚拟标识等主要分析要素,来分析人与人之间的深度关系,从而达到抓住嫌疑人或者是防控犯罪的目的。
公安行业经过近二十年的信息化快速发展,积累了海量的公安内部业务数据、社会采集数据、互联网数据和音视频数据和近千种的多源异构数据。但数据质量参差不齐,数据分散存储在各地。其中,数据量最大、价值量最高的数据,集中在身份证、护照 ID 信息,以及车牌号、入住酒店、乘坐飞机、高速路卡口等信息。
在复杂的场景下,人类大脑可能将现实世界的线上线下数据做一些关联,但非常费时费事。如果没有好的方法和技术来解决,就无法在以上数据中寻找出公安要素之间的深度联系,也无法服务于公安实战应用。
百分点经过多年新技术的探索和积累,形成了一套基于人工智能、云计算和大数据技术的安全分析方法论,即百分点“公安数据双胞胎”:将现实世界构建到数学模型中,使技术化的数据转变为业务知识,并在对世界描述的模型中形成数据闭环,最终解决实际问题。
第一步要做的就是,将公共安全领域的现实世界数据化,在数据的世界进行分析并重构现实世界的流程。
第二步,考虑到公共安全行业的分析人员并不都具备数据技术处理能力,经常会出现无法直接获取数据的情况,这时候我们还要做进一步的工作,来让数据表示尽量接近于现实世界,这其实就是知识图谱的核心理念,即百分点 DeepMatix,以独创的动态知识图谱技术构建“实体-时空“的映射关系,实现以动态复原现实世界的方式解决复杂、变化的现实问题。让机器具备认知能力,帮助线下业务人员直接在数据世界发现现实世界中的若干问题。与此同时,机器通过对数据世界中的现象分析处理,来辅助业务人员对一些案件进行分析研判。
当一个事件发生之后,通过动态知识图谱就就可以预测出事件产生的影响。这种专业性的知识连接在之前只能存在于人的脑子里。而有了知识图谱的技术之后,就可以让机器自动实现对一些事件影响的分析。比如,中兴芯片事件发生后,什么股票会涨什么股票不会涨?这些信息都有可能通过知识图谱方式得到呈现。
聚焦到公共安全行业,其本质是将所有信息连在一起的,核心业务就是挖掘出某个人到底之前做了什么事,什么时间做了什么事,跟其他人有什么联系。从这个角度来说,知识图谱技术非常契合公共安全行业业务特点,也因此百分点将知识图谱作为核心技术来解决公共安全行业的问题。知识图谱其实有很多种类,大家最熟悉的知识图谱是搜索引擎知识图谱,而公共安全行业知识图谱,是为线索分析挖掘研判提供知识。
那么,公共安全行业知识图谱跟大家最熟悉的搜索引擎的知识图谱到底有什么区别呢?
首先,从数据源来说,搜索引擎的知识图谱更多来源于网上的网页数据,需要用知识抽取的方式,将知识从文本的信息抽取出来。但公共安全行业以直接存储于传统数据库的地址、卡口信息为主。
其次,内容不一样。公共安全领域内容主体是人、事、物、组织,而且以事居多,采集事务量是最大的。
第三,从业务诉求来说,搜索引擎一般关注热门人物,知识上需要有更高的广度;但公共安全关注冷门人物,知识上需要有更高的深度,需要挖掘隐含关系、认知事件真相、预测预防危险发生。
就像乔布斯在 Stanford 演讲时提到的“connecting the dots”理论,连点成线,将一堆零散、无序的,让人们忽视的存在绘成思维地图,以理论指导实践。这也是此次演讲的主题《AI 认知技术帮助公共安全行业 ConnectingDots》。
那么,如何达到开头说的获取并形成认知能力呢?首先需要了解如何进行知识的构建。黄伟介绍,只是构建整体由两大块组成:抽取和融合。
抽取:
公共安全领域以是传统数据库中的数据为主,直接能将信息抽出来即可,重点是从文本里如何抽取知识?
从机器视角(模拟不懂语言的机器),将词库映射到样本里,用机器学习方法进行学习,把实体抽取问题变成一个序列标志问题。比如,利用分析的隐马尔可夫(HMM)、条件随机场(CRF)、最大熵马尔可夫模型(MEMM)等。
但实际操作中,在特征工程、领域移植性、未登录词识别等方面并不尽如人意,这也是百分点在海外项目中碰到的主要问题,当机器碰到无法识别的语言时候的便无从下手。
针对这个问题,百分点的解决方法是,将深度学习应用于 NER,把以往特征工程中需要抽取的实体的字、词转变成向量,再输入到神经网络中,并在上层接入 CRF 转移概率的模型。
黄伟介绍,由此实现的效果比传统的 CRF 效果非常显著,在公开的测试集上,从 86.30%提高到了 91.45%。
另一方面,为解决整体的时序标注的非常耗费性能的问题,百分点采用 ptorch 框架,得以应用 GPU 来提高分析效率。
不能忽略的一点,是现实世界的知识是动态变化的,数据会随时变化。硬编码的本体会使得系统走向两个极端,当我们构建通用模型是,就会出现 No Semantics。
针对某个特定领域进行建模,比如建立一个人的本体,会包含身份证号、手机号等信息。这种建模方式就存在过度定义的问题(Over-Defined Semantics),如果换一个分析方式或换一个领域模型就不会适用。因此,当数据发生变化时,模型就要相应变化,修改数据库 schema、重新导入数据,并重新部署。
如何解决?百分点在知识抽取中采用动态本体映射。本体配置是动态可变的,可以在通用性模型与特定领域模型之间任意切换。
融合:
实际业务中,分析人员使用的是融合之后的数据,如果在数据抽出来时如何做融合?
简单来说,先同构再融合。在不同数据源上构建出基于本体定义的结构的知识图谱,再在各个数据源的知识图谱上做融合。
举个实际案例:
person A 拥有两个属性:name 与 phone_num,其中电话号码属性来源于人员库,可能是从公安局数据库中提取出来的;但另一个名字属性 name 字段比较特殊,来自两个不同的数据库,并且在不同库里值不一样,对于这个问题,我们称“这个属性在融合时发生了冲突”。这时候就要依赖于提前配置的融合规则,如果认为人员库的 name 字段比较可信,优先级较高,最终结果显示的就会是人员库的 name 名称,即万元武。如果点击溯源按钮,可以看出银行库中的 name 字段是账户 403,人员库中 name 属性是万元武,这即是因为提供了可以从对象追溯到数据来源的功能。
值得注意的是,数据的动态性是如何在对象模型中体现的呢?
一方面,融合规则是可以动态调整的。如果分析人员觉得银行库的 name 字段优先级更高,那么在改变融合优先级,就可以设置银行库 name 属性优先级较高,前台的 name 字段就会变成账户 403。整个过程是实时的,既无需重启系统,也无需重新导入数据。更棒的一点在于,系统还支持动态的新增数据源。
另一方面,融合过程经常遇到会出现信息损失,这种情况如何解决呢?黄伟介绍,此时需要做软融合,使所有的信息可以支持多个数据溯源,而在表现层时可以只表现为一个。
动态知识图谱在安全行业的应用
近几年,伴随着中国“一带一路”、“走出去”、“中国国家软实力输出”等多项国策的鼓励,百分点率先出海,为非洲、拉美以及更多国家和地区搭建国家级的大数据和人工智能平台,落脚点主要体现在将知识图谱服务于国家级政府公共事务项目和公共安全行业的应用。具体来说,安全行业知识图谱主要有三方面应用:
交互式分析:
因现实世界情形是多种多样,需要交互式系统辅助分析人员进行分析,将主要关系、时间、空间等维度,以及实体标签在数据世界中进行描述。
知识化后的数据世界中,不仅显著提升分析效率,还能帮助提升对现实世界形成认知能力,针对多变环境和场景进行自适应,将知识共享、传承。
业务战法:
公安行业的分析人员就如同电影中的探长一样,需要借助这套系统来挖掘深度信息。这其中有很多规则,如果不将其进行沉淀,每次案件侦查中都会进行大量重复性的工作。
比如“同行同住”规则,本质说是由一些弱关系能发现一些强关系。这也是嫌疑人进行扩散的方法。但是如果同住一间房、同住一间酒店,但两个人入住时间差别 5 个小时 6 个小时怎么办?因为影响因素非常多,还需要借助模型来分析。
对于如何建模,以一个经济犯罪案例来说明。由于证券行业中基金经理不能炒股,但难免有的基金经理会借助朋友账户,而实际上,这种情况通过 GBDT 模型就可以被发现。
这就是在实际业务中经常会碰到的挖掘隐含关系的问题:可以假设两个账户经常同时出现在一个 WIFI 地点,从而推断出账户实际控制人到底是谁。
首先通过特征工程,根据强拉通规则用 GBDT 模型进行训练。训练数据来自于用户行为,比如手机没电进行切换时候就可以找到两个手机之间的隐藏关系。GBDT 模型训练精度非常高,可以达到 97%。
诸如此类,业务积累的规则非常多,采用固化常用的挖掘模式,既可以提高分析效率、高精度,还可预置演绎规则。
挖掘推理:
知识图谱的第三类应用由纯机器进行挖掘推理。机器需要自动从图中数据学习到东西并进行预测、推理、分析,其在逻辑上可以分两类:归纳和演绎。
由于知识图谱并不是随机生成的,是通过对现实世界的数据进行标注,用归纳方法得到若干的规则和模型。但这些模型还不能对现实世界无法形成通用的认知,但在一个限定领域,可以通过归纳让机器认识到更多知识,并在应用时产生更多的知识。
进一步说,还可以应用模型来进行推演,以此得到新知识。比如嫌疑人案发时不在场的证据可以直接能让机器认知到,当机器在做嫌疑人排序时就会把概率降得更低。
总结来说,知识图谱在公共安全行业的重要性毋庸置疑,百分点通过动态知识图谱技术,将知识进行抽取、融合并构建图谱,在图谱之上使人和机器协同,帮助公共安全业务人员更直接的理解现实世界,并辅助其对犯罪线索的各种分析研判。以此为基础,百分点 DEEPFINDER(智能安全分析系统),是面向公共安全领域的专属“大数据+AI”系统平台,包含大数据管理平台、数据认知引擎、数据应用服务三部分。为公安机关和政府执法部门高效全面的整合数据、分析数据、运用数据,最大限度从海量的数据资源中挖掘内在价值,提供强大的技术和工具支持。
DEEPFINDER 以“动态知识图谱”为核心,应用大数据、机器学习、人工智能等技术,实现对公共安全领域的多源异构数据的同构融合,将技术化数据转变为业务知识,进行灵活弹性数据建模,自动构建“实体-时空”映射关系,将现实世界中的“人、物、组织、时空、虚拟标识”映射到数字世界中,并构建他们之间的关联关系,帮助公安机关实现以数据为关键要素的数字侦查,用数据还原现实世界。
百分点动态知识图谱技术在国内公共安全领域已经进行落地应用,帮助国保、公安、检察院、法院、海关、反恐和其他政府相关部门提供案件调查和分析,对各类违法犯罪活动精准打击,实现风险隐患的敏锐感知和精确预警,提升社会综合治理管理水平。在不久的将来,希望借助动态知识图谱让业务人员能真正的能理解具体的人和具体发生的事。
评论