QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

百分点黄伟:AI 认知技术如何帮助公共安全行业 ConnectingDots?

  • 2020-03-08
  • 本文字数:4348 字

    阅读完需:约 14 分钟

百分点黄伟:AI认知技术如何帮助公共安全行业ConnectingDots?

现实中的公共安全行业同样是面对着纷繁复杂的表象,业务人员如同电影中的侦探,一直处于与各种犯罪嫌疑人的博弈中。


公共安全行业主要通过人、物、时空、组织、虚拟标识等主要分析要素,来分析人与人之间的深度关系,从而达到抓住嫌疑人或者是防控犯罪的目的。



公安行业经过近二十年的信息化快速发展,积累了海量的公安内部业务数据、社会采集数据、互联网数据和音视频数据和近千种的多源异构数据。但数据质量参差不齐,数据分散存储在各地。其中,数据量最大、价值量最高的数据,集中在身份证、护照 ID 信息,以及车牌号、入住酒店、乘坐飞机、高速路卡口等信息。


在复杂的场景下,人类大脑可能将现实世界的线上线下数据做一些关联,但非常费时费事。如果没有好的方法和技术来解决,就无法在以上数据中寻找出公安要素之间的深度联系,也无法服务于公安实战应用。


百分点经过多年新技术的探索和积累,形成了一套基于人工智能、云计算和大数据技术的安全分析方法论,即百分点“公安数据双胞胎”:将现实世界构建到数学模型中,使技术化的数据转变为业务知识,并在对世界描述的模型中形成数据闭环,最终解决实际问题。



第一步要做的就是,将公共安全领域的现实世界数据化,在数据的世界进行分析并重构现实世界的流程。


第二步,考虑到公共安全行业的分析人员并不都具备数据技术处理能力,经常会出现无法直接获取数据的情况,这时候我们还要做进一步的工作,来让数据表示尽量接近于现实世界,这其实就是知识图谱的核心理念,即百分点 DeepMatix,以独创的动态知识图谱技术构建“实体-时空“的映射关系,实现以动态复原现实世界的方式解决复杂、变化的现实问题。让机器具备认知能力,帮助线下业务人员直接在数据世界发现现实世界中的若干问题。与此同时,机器通过对数据世界中的现象分析处理,来辅助业务人员对一些案件进行分析研判。



当一个事件发生之后,通过动态知识图谱就就可以预测出事件产生的影响。这种专业性的知识连接在之前只能存在于人的脑子里。而有了知识图谱的技术之后,就可以让机器自动实现对一些事件影响的分析。比如,中兴芯片事件发生后,什么股票会涨什么股票不会涨?这些信息都有可能通过知识图谱方式得到呈现。


聚焦到公共安全行业,其本质是将所有信息连在一起的,核心业务就是挖掘出某个人到底之前做了什么事,什么时间做了什么事,跟其他人有什么联系。从这个角度来说,知识图谱技术非常契合公共安全行业业务特点,也因此百分点将知识图谱作为核心技术来解决公共安全行业的问题。知识图谱其实有很多种类,大家最熟悉的知识图谱是搜索引擎知识图谱,而公共安全行业知识图谱,是为线索分析挖掘研判提供知识。


那么,公共安全行业知识图谱跟大家最熟悉的搜索引擎的知识图谱到底有什么区别呢?



首先,从数据源来说,搜索引擎的知识图谱更多来源于网上的网页数据,需要用知识抽取的方式,将知识从文本的信息抽取出来。但公共安全行业以直接存储于传统数据库的地址、卡口信息为主。

其次,内容不一样。公共安全领域内容主体是人、事、物、组织,而且以事居多,采集事务量是最大的。

第三,从业务诉求来说,搜索引擎一般关注热门人物,知识上需要有更高的广度;但公共安全关注冷门人物,知识上需要有更高的深度,需要挖掘隐含关系、认知事件真相、预测预防危险发生。


就像乔布斯在 Stanford 演讲时提到的“connecting the dots”理论,连点成线,将一堆零散、无序的,让人们忽视的存在绘成思维地图,以理论指导实践。这也是此次演讲的主题《AI 认知技术帮助公共安全行业 ConnectingDots》。


那么,如何达到开头说的获取并形成认知能力呢?首先需要了解如何进行知识的构建。黄伟介绍,只是构建整体由两大块组成:抽取和融合。


抽取

公共安全领域以是传统数据库中的数据为主,直接能将信息抽出来即可,重点是从文本里如何抽取知识?

从机器视角(模拟不懂语言的机器),将词库映射到样本里,用机器学习方法进行学习,把实体抽取问题变成一个序列标志问题。比如,利用分析的隐马尔可夫(HMM)、条件随机场(CRF)、最大熵马尔可夫模型(MEMM)等。

但实际操作中,在特征工程、领域移植性、未登录词识别等方面并不尽如人意,这也是百分点在海外项目中碰到的主要问题,当机器碰到无法识别的语言时候的便无从下手。

针对这个问题,百分点的解决方法是,将深度学习应用于 NER,把以往特征工程中需要抽取的实体的字、词转变成向量,再输入到神经网络中,并在上层接入 CRF 转移概率的模型。

黄伟介绍,由此实现的效果比传统的 CRF 效果非常显著,在公开的测试集上,从 86.30%提高到了 91.45%。

另一方面,为解决整体的时序标注的非常耗费性能的问题,百分点采用 ptorch 框架,得以应用 GPU 来提高分析效率。

不能忽略的一点,是现实世界的知识是动态变化的,数据会随时变化。硬编码的本体会使得系统走向两个极端,当我们构建通用模型是,就会出现 No Semantics。

针对某个特定领域进行建模,比如建立一个人的本体,会包含身份证号、手机号等信息。这种建模方式就存在过度定义的问题(Over-Defined Semantics),如果换一个分析方式或换一个领域模型就不会适用。因此,当数据发生变化时,模型就要相应变化,修改数据库 schema、重新导入数据,并重新部署。

如何解决?百分点在知识抽取中采用动态本体映射。本体配置是动态可变的,可以在通用性模型与特定领域模型之间任意切换。


融合

实际业务中,分析人员使用的是融合之后的数据,如果在数据抽出来时如何做融合?

简单来说,先同构再融合。在不同数据源上构建出基于本体定义的结构的知识图谱,再在各个数据源的知识图谱上做融合。

举个实际案例

person A 拥有两个属性:name 与 phone_num,其中电话号码属性来源于人员库,可能是从公安局数据库中提取出来的;但另一个名字属性 name 字段比较特殊,来自两个不同的数据库,并且在不同库里值不一样,对于这个问题,我们称“这个属性在融合时发生了冲突”。这时候就要依赖于提前配置的融合规则,如果认为人员库的 name 字段比较可信,优先级较高,最终结果显示的就会是人员库的 name 名称,即万元武。如果点击溯源按钮,可以看出银行库中的 name 字段是账户 403,人员库中 name 属性是万元武,这即是因为提供了可以从对象追溯到数据来源的功能。

值得注意的是,数据的动态性是如何在对象模型中体现的呢?

一方面,融合规则是可以动态调整的。如果分析人员觉得银行库的 name 字段优先级更高,那么在改变融合优先级,就可以设置银行库 name 属性优先级较高,前台的 name 字段就会变成账户 403。整个过程是实时的,既无需重启系统,也无需重新导入数据。更棒的一点在于,系统还支持动态的新增数据源。

另一方面,融合过程经常遇到会出现信息损失,这种情况如何解决呢?黄伟介绍,此时需要做软融合,使所有的信息可以支持多个数据溯源,而在表现层时可以只表现为一个。


动态知识图谱在安全行业的应用


近几年,伴随着中国“一带一路”、“走出去”、“中国国家软实力输出”等多项国策的鼓励,百分点率先出海,为非洲、拉美以及更多国家和地区搭建国家级的大数据和人工智能平台,落脚点主要体现在将知识图谱服务于国家级政府公共事务项目和公共安全行业的应用。具体来说,安全行业知识图谱主要有三方面应用:


交互式分析


因现实世界情形是多种多样,需要交互式系统辅助分析人员进行分析,将主要关系、时间、空间等维度,以及实体标签在数据世界中进行描述。


知识化后的数据世界中,不仅显著提升分析效率,还能帮助提升对现实世界形成认知能力,针对多变环境和场景进行自适应,将知识共享、传承。


业务战法


公安行业的分析人员就如同电影中的探长一样,需要借助这套系统来挖掘深度信息。这其中有很多规则,如果不将其进行沉淀,每次案件侦查中都会进行大量重复性的工作。



比如“同行同住”规则,本质说是由一些弱关系能发现一些强关系。这也是嫌疑人进行扩散的方法。但是如果同住一间房、同住一间酒店,但两个人入住时间差别 5 个小时 6 个小时怎么办?因为影响因素非常多,还需要借助模型来分析。



对于如何建模,以一个经济犯罪案例来说明。由于证券行业中基金经理不能炒股,但难免有的基金经理会借助朋友账户,而实际上,这种情况通过 GBDT 模型就可以被发现。


这就是在实际业务中经常会碰到的挖掘隐含关系的问题:可以假设两个账户经常同时出现在一个 WIFI 地点,从而推断出账户实际控制人到底是谁。


首先通过特征工程,根据强拉通规则用 GBDT 模型进行训练。训练数据来自于用户行为,比如手机没电进行切换时候就可以找到两个手机之间的隐藏关系。GBDT 模型训练精度非常高,可以达到 97%。


诸如此类,业务积累的规则非常多,采用固化常用的挖掘模式,既可以提高分析效率、高精度,还可预置演绎规则。


挖掘推理


知识图谱的第三类应用由纯机器进行挖掘推理。机器需要自动从图中数据学习到东西并进行预测、推理、分析,其在逻辑上可以分两类:归纳和演绎。



由于知识图谱并不是随机生成的,是通过对现实世界的数据进行标注,用归纳方法得到若干的规则和模型。但这些模型还不能对现实世界无法形成通用的认知,但在一个限定领域,可以通过归纳让机器认识到更多知识,并在应用时产生更多的知识。


进一步说,还可以应用模型来进行推演,以此得到新知识。比如嫌疑人案发时不在场的证据可以直接能让机器认知到,当机器在做嫌疑人排序时就会把概率降得更低。



总结来说,知识图谱在公共安全行业的重要性毋庸置疑,百分点通过动态知识图谱技术,将知识进行抽取、融合并构建图谱,在图谱之上使人和机器协同,帮助公共安全业务人员更直接的理解现实世界,并辅助其对犯罪线索的各种分析研判。以此为基础,百分点 DEEPFINDER(智能安全分析系统),是面向公共安全领域的专属“大数据+AI”系统平台,包含大数据管理平台、数据认知引擎、数据应用服务三部分。为公安机关和政府执法部门高效全面的整合数据、分析数据、运用数据,最大限度从海量的数据资源中挖掘内在价值,提供强大的技术和工具支持。


DEEPFINDER 以“动态知识图谱”为核心,应用大数据、机器学习、人工智能等技术,实现对公共安全领域的多源异构数据的同构融合,将技术化数据转变为业务知识,进行灵活弹性数据建模,自动构建“实体-时空”映射关系,将现实世界中的“人、物、组织、时空、虚拟标识”映射到数字世界中,并构建他们之间的关联关系,帮助公安机关实现以数据为关键要素的数字侦查,用数据还原现实世界。


百分点动态知识图谱技术在国内公共安全领域已经进行落地应用,帮助国保、公安、检察院、法院、海关、反恐和其他政府相关部门提供案件调查和分析,对各类违法犯罪活动精准打击,实现风险隐患的敏锐感知和精确预警,提升社会综合治理管理水平。在不久的将来,希望借助动态知识图谱让业务人员能真正的能理解具体的人和具体发生的事。


2020-03-08 16:441468

评论

发布
暂无评论
发现更多内容

盲盒app开发

支撑长安链运行,区块链算力平台是什么?

CECBC

初识 .NET6

面向对象的猫

.net core .net6

自定义View:多点触摸画笔的实现

Changing Lin

11月日更

怎么自学Python,大概要多久?

老表

Python 11月日更 编程入门 思路 如何解决问题

盲盒开发

社科院专家认为元宇宙是双刃剑,将带来五大巨变

CECBC

公司应该监控员工的上网行为吗?

石云升

职场经验 11月日更

大数据训练营一期1017作业

朱磊

飞桨中国行——企业服务专场

百度大脑

人工智能

盲盒小程序开发盲盒源码搭建

进击的Java(九)

ES_her0

11月日更

盲盒开发盲盒小程序系统开发

Flink CDC 2.1 正式发布,稳定性大幅提升,新增 Oracle,MongoDB 支持

Apache Flink

大数据 flink 后端 实时计算 CDC

ARP欺骗与防范

喀拉峻

网络安全 安全 信息安全

Android C++系列:Linux文件IO操作(一)

轻口味

c++ android jni 11月日更

去安定医院看失眠,有必要吗?

脑极体

以用户体验为抓手,助力券商数字化转型

博睿数据

选择 Pulsar 而不是 Kafka 的 7 大理由

Apache Pulsar

kafka 架构 云原生 中间件 Apache Pulsar

一个基于PoS共识算法的区块链实例解析(升级版)

Regan Yue

区块链 共识算法 Go 语言 11月日更

盲盒小程序开发源码搭建

盲盒开发一番赏盲芒趣蛋趣小程序app开发

.NET6 内置IOC容器

面向对象的猫

.net core .net6

对比 Apache Kafka 和 Apache Pulsar 创建工作队列

Apache Pulsar

kafka 分布式 中间件 Apache Pulsar 工作队列

盲盒开发源码搭建小程序app

如何用Camtasia为“微课”视频添加光标效果?

淋雨

Camtasia

Kafka 已落伍,转角遇见 Pulsar!

Apache Pulsar

kafka 架构 分布式 Apache Pulsar 消息系统

当AI能够在15分钟内部署,世界距离大变革不远了

百度大脑

人工智能

盲盒h5小程序app系统开发

Python Qt GUI设计:多线程中信号与槽的使用(基础篇—9)

不脱发的程序猿

Python qt PyQt GUI设计 多线程中信号与槽的使用

从消息到数据湖:看 Apache RocketMQ、Hudi、Kyuubi 最新进展

阿里巴巴云原生

数据湖 Meetup Apache RocketMQ Apache Hudi Apache Kyuubi

百分点黄伟:AI认知技术如何帮助公共安全行业ConnectingDots?_文化 & 方法_百分点认知智能实验室_InfoQ精选文章