写点什么

百分点黄伟:AI 认知技术如何帮助公共安全行业 ConnectingDots?

  • 2020-03-08
  • 本文字数:4348 字

    阅读完需:约 14 分钟

百分点黄伟:AI认知技术如何帮助公共安全行业ConnectingDots?

现实中的公共安全行业同样是面对着纷繁复杂的表象,业务人员如同电影中的侦探,一直处于与各种犯罪嫌疑人的博弈中。


公共安全行业主要通过人、物、时空、组织、虚拟标识等主要分析要素,来分析人与人之间的深度关系,从而达到抓住嫌疑人或者是防控犯罪的目的。



公安行业经过近二十年的信息化快速发展,积累了海量的公安内部业务数据、社会采集数据、互联网数据和音视频数据和近千种的多源异构数据。但数据质量参差不齐,数据分散存储在各地。其中,数据量最大、价值量最高的数据,集中在身份证、护照 ID 信息,以及车牌号、入住酒店、乘坐飞机、高速路卡口等信息。


在复杂的场景下,人类大脑可能将现实世界的线上线下数据做一些关联,但非常费时费事。如果没有好的方法和技术来解决,就无法在以上数据中寻找出公安要素之间的深度联系,也无法服务于公安实战应用。


百分点经过多年新技术的探索和积累,形成了一套基于人工智能、云计算和大数据技术的安全分析方法论,即百分点“公安数据双胞胎”:将现实世界构建到数学模型中,使技术化的数据转变为业务知识,并在对世界描述的模型中形成数据闭环,最终解决实际问题。



第一步要做的就是,将公共安全领域的现实世界数据化,在数据的世界进行分析并重构现实世界的流程。


第二步,考虑到公共安全行业的分析人员并不都具备数据技术处理能力,经常会出现无法直接获取数据的情况,这时候我们还要做进一步的工作,来让数据表示尽量接近于现实世界,这其实就是知识图谱的核心理念,即百分点 DeepMatix,以独创的动态知识图谱技术构建“实体-时空“的映射关系,实现以动态复原现实世界的方式解决复杂、变化的现实问题。让机器具备认知能力,帮助线下业务人员直接在数据世界发现现实世界中的若干问题。与此同时,机器通过对数据世界中的现象分析处理,来辅助业务人员对一些案件进行分析研判。



当一个事件发生之后,通过动态知识图谱就就可以预测出事件产生的影响。这种专业性的知识连接在之前只能存在于人的脑子里。而有了知识图谱的技术之后,就可以让机器自动实现对一些事件影响的分析。比如,中兴芯片事件发生后,什么股票会涨什么股票不会涨?这些信息都有可能通过知识图谱方式得到呈现。


聚焦到公共安全行业,其本质是将所有信息连在一起的,核心业务就是挖掘出某个人到底之前做了什么事,什么时间做了什么事,跟其他人有什么联系。从这个角度来说,知识图谱技术非常契合公共安全行业业务特点,也因此百分点将知识图谱作为核心技术来解决公共安全行业的问题。知识图谱其实有很多种类,大家最熟悉的知识图谱是搜索引擎知识图谱,而公共安全行业知识图谱,是为线索分析挖掘研判提供知识。


那么,公共安全行业知识图谱跟大家最熟悉的搜索引擎的知识图谱到底有什么区别呢?



首先,从数据源来说,搜索引擎的知识图谱更多来源于网上的网页数据,需要用知识抽取的方式,将知识从文本的信息抽取出来。但公共安全行业以直接存储于传统数据库的地址、卡口信息为主。

其次,内容不一样。公共安全领域内容主体是人、事、物、组织,而且以事居多,采集事务量是最大的。

第三,从业务诉求来说,搜索引擎一般关注热门人物,知识上需要有更高的广度;但公共安全关注冷门人物,知识上需要有更高的深度,需要挖掘隐含关系、认知事件真相、预测预防危险发生。


就像乔布斯在 Stanford 演讲时提到的“connecting the dots”理论,连点成线,将一堆零散、无序的,让人们忽视的存在绘成思维地图,以理论指导实践。这也是此次演讲的主题《AI 认知技术帮助公共安全行业 ConnectingDots》。


那么,如何达到开头说的获取并形成认知能力呢?首先需要了解如何进行知识的构建。黄伟介绍,只是构建整体由两大块组成:抽取和融合。


抽取

公共安全领域以是传统数据库中的数据为主,直接能将信息抽出来即可,重点是从文本里如何抽取知识?

从机器视角(模拟不懂语言的机器),将词库映射到样本里,用机器学习方法进行学习,把实体抽取问题变成一个序列标志问题。比如,利用分析的隐马尔可夫(HMM)、条件随机场(CRF)、最大熵马尔可夫模型(MEMM)等。

但实际操作中,在特征工程、领域移植性、未登录词识别等方面并不尽如人意,这也是百分点在海外项目中碰到的主要问题,当机器碰到无法识别的语言时候的便无从下手。

针对这个问题,百分点的解决方法是,将深度学习应用于 NER,把以往特征工程中需要抽取的实体的字、词转变成向量,再输入到神经网络中,并在上层接入 CRF 转移概率的模型。

黄伟介绍,由此实现的效果比传统的 CRF 效果非常显著,在公开的测试集上,从 86.30%提高到了 91.45%。

另一方面,为解决整体的时序标注的非常耗费性能的问题,百分点采用 ptorch 框架,得以应用 GPU 来提高分析效率。

不能忽略的一点,是现实世界的知识是动态变化的,数据会随时变化。硬编码的本体会使得系统走向两个极端,当我们构建通用模型是,就会出现 No Semantics。

针对某个特定领域进行建模,比如建立一个人的本体,会包含身份证号、手机号等信息。这种建模方式就存在过度定义的问题(Over-Defined Semantics),如果换一个分析方式或换一个领域模型就不会适用。因此,当数据发生变化时,模型就要相应变化,修改数据库 schema、重新导入数据,并重新部署。

如何解决?百分点在知识抽取中采用动态本体映射。本体配置是动态可变的,可以在通用性模型与特定领域模型之间任意切换。


融合

实际业务中,分析人员使用的是融合之后的数据,如果在数据抽出来时如何做融合?

简单来说,先同构再融合。在不同数据源上构建出基于本体定义的结构的知识图谱,再在各个数据源的知识图谱上做融合。

举个实际案例

person A 拥有两个属性:name 与 phone_num,其中电话号码属性来源于人员库,可能是从公安局数据库中提取出来的;但另一个名字属性 name 字段比较特殊,来自两个不同的数据库,并且在不同库里值不一样,对于这个问题,我们称“这个属性在融合时发生了冲突”。这时候就要依赖于提前配置的融合规则,如果认为人员库的 name 字段比较可信,优先级较高,最终结果显示的就会是人员库的 name 名称,即万元武。如果点击溯源按钮,可以看出银行库中的 name 字段是账户 403,人员库中 name 属性是万元武,这即是因为提供了可以从对象追溯到数据来源的功能。

值得注意的是,数据的动态性是如何在对象模型中体现的呢?

一方面,融合规则是可以动态调整的。如果分析人员觉得银行库的 name 字段优先级更高,那么在改变融合优先级,就可以设置银行库 name 属性优先级较高,前台的 name 字段就会变成账户 403。整个过程是实时的,既无需重启系统,也无需重新导入数据。更棒的一点在于,系统还支持动态的新增数据源。

另一方面,融合过程经常遇到会出现信息损失,这种情况如何解决呢?黄伟介绍,此时需要做软融合,使所有的信息可以支持多个数据溯源,而在表现层时可以只表现为一个。


动态知识图谱在安全行业的应用


近几年,伴随着中国“一带一路”、“走出去”、“中国国家软实力输出”等多项国策的鼓励,百分点率先出海,为非洲、拉美以及更多国家和地区搭建国家级的大数据和人工智能平台,落脚点主要体现在将知识图谱服务于国家级政府公共事务项目和公共安全行业的应用。具体来说,安全行业知识图谱主要有三方面应用:


交互式分析


因现实世界情形是多种多样,需要交互式系统辅助分析人员进行分析,将主要关系、时间、空间等维度,以及实体标签在数据世界中进行描述。


知识化后的数据世界中,不仅显著提升分析效率,还能帮助提升对现实世界形成认知能力,针对多变环境和场景进行自适应,将知识共享、传承。


业务战法


公安行业的分析人员就如同电影中的探长一样,需要借助这套系统来挖掘深度信息。这其中有很多规则,如果不将其进行沉淀,每次案件侦查中都会进行大量重复性的工作。



比如“同行同住”规则,本质说是由一些弱关系能发现一些强关系。这也是嫌疑人进行扩散的方法。但是如果同住一间房、同住一间酒店,但两个人入住时间差别 5 个小时 6 个小时怎么办?因为影响因素非常多,还需要借助模型来分析。



对于如何建模,以一个经济犯罪案例来说明。由于证券行业中基金经理不能炒股,但难免有的基金经理会借助朋友账户,而实际上,这种情况通过 GBDT 模型就可以被发现。


这就是在实际业务中经常会碰到的挖掘隐含关系的问题:可以假设两个账户经常同时出现在一个 WIFI 地点,从而推断出账户实际控制人到底是谁。


首先通过特征工程,根据强拉通规则用 GBDT 模型进行训练。训练数据来自于用户行为,比如手机没电进行切换时候就可以找到两个手机之间的隐藏关系。GBDT 模型训练精度非常高,可以达到 97%。


诸如此类,业务积累的规则非常多,采用固化常用的挖掘模式,既可以提高分析效率、高精度,还可预置演绎规则。


挖掘推理


知识图谱的第三类应用由纯机器进行挖掘推理。机器需要自动从图中数据学习到东西并进行预测、推理、分析,其在逻辑上可以分两类:归纳和演绎。



由于知识图谱并不是随机生成的,是通过对现实世界的数据进行标注,用归纳方法得到若干的规则和模型。但这些模型还不能对现实世界无法形成通用的认知,但在一个限定领域,可以通过归纳让机器认识到更多知识,并在应用时产生更多的知识。


进一步说,还可以应用模型来进行推演,以此得到新知识。比如嫌疑人案发时不在场的证据可以直接能让机器认知到,当机器在做嫌疑人排序时就会把概率降得更低。



总结来说,知识图谱在公共安全行业的重要性毋庸置疑,百分点通过动态知识图谱技术,将知识进行抽取、融合并构建图谱,在图谱之上使人和机器协同,帮助公共安全业务人员更直接的理解现实世界,并辅助其对犯罪线索的各种分析研判。以此为基础,百分点 DEEPFINDER(智能安全分析系统),是面向公共安全领域的专属“大数据+AI”系统平台,包含大数据管理平台、数据认知引擎、数据应用服务三部分。为公安机关和政府执法部门高效全面的整合数据、分析数据、运用数据,最大限度从海量的数据资源中挖掘内在价值,提供强大的技术和工具支持。


DEEPFINDER 以“动态知识图谱”为核心,应用大数据、机器学习、人工智能等技术,实现对公共安全领域的多源异构数据的同构融合,将技术化数据转变为业务知识,进行灵活弹性数据建模,自动构建“实体-时空”映射关系,将现实世界中的“人、物、组织、时空、虚拟标识”映射到数字世界中,并构建他们之间的关联关系,帮助公安机关实现以数据为关键要素的数字侦查,用数据还原现实世界。


百分点动态知识图谱技术在国内公共安全领域已经进行落地应用,帮助国保、公安、检察院、法院、海关、反恐和其他政府相关部门提供案件调查和分析,对各类违法犯罪活动精准打击,实现风险隐患的敏锐感知和精确预警,提升社会综合治理管理水平。在不久的将来,希望借助动态知识图谱让业务人员能真正的能理解具体的人和具体发生的事。


2020-03-08 16:441290

评论

发布
暂无评论
发现更多内容

制造业数字化转型的核心不止是技术

万界星空科技

数字化转型 工业互联网 mes 万界星空科技mes

IPQ6018 and IPQ6000 series: highlighting differences and superior advantages

wallysSK

KubeWharf:推动云原生技术发展的未来之路

Miracle.

#云原生 #技术人的2023总结 KubeWharf

专业强大的扫描仪软件:VueScan Pro中文激活版

胖墩儿不胖y

Mac软件 扫描工具 扫描仪

云图说丨初识华为云边缘安全——为加速域名保驾护航

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云云图说

测试开发 | 人工智能目标检测

测吧(北京)科技有限公司

测试

测试开发 | 探究人工智能的基石:强化学习的奇妙世界

测吧(北京)科技有限公司

测试

企业门户平台全功能解析:从界面到集成,一站式管理与整合

天津汇柏科技有限公司

企业 统一门户

企业财务团队如何进行转型升级?

智达方通

全面预算管理 财务团队 财务转型

深入理解云原生基础:Docker和Kubernetes的核心概念与应用

Miracle.

#云原生 #技术人的2023总结

测试开发 | 探索人工智能图像生成的奇妙世界

测吧(北京)科技有限公司

测试

Wireshark网络工具

小齐写代码

多功能项目流程管理软件:OmniPlan Pro 4密钥中文版

mac大玩家j

项目管理软件 Mac软件 Mac项目流程管理

测试开发 | 人工智能的决策智慧:马尔可夫决策过程(MDP)

测吧(北京)科技有限公司

测试

从容器的发展历史理解容器的本质

华为云开发者联盟

云计算 云原生 后端 华为云 华为云开发者联盟

MES系统怎么实现车间管理中的生产计划和排产计划

万界星空科技

工业互联网 生产管理系统 mes 万界星空科技 万界星空科技mes

实时数据获取:抖音API在电商中的应用与影响

Noah

揭秘抖音视频详情API:电商行业的制胜法宝与实时数据获取的奥秘

Noah

万德高科携手航天科技AIRIOT打造智慧能碳管理平台, 助力碳达峰碳中和

AIRIOT

数字化转型 智慧系统 能碳管理

如何鉴别LED电子显示屏好坏

Dylan

质量 评估 电子 LED显示屏

测试开发 | 深度解析人工智能特征提取

测吧(北京)科技有限公司

测试

Golang实现JAVA虚拟机-运行时数据区

EquatorCoco

Java 数据库 JVM 数据

iZotope RX 10 for mac(音频修复和增强软件) 10.4.2完整激活版

mac

苹果mac Windows软件 iZotope RX 10 音频修复软件

交易所开发:中心化加密货币交易所发展的关键考虑因素实现数字交易

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

深入云原生—基于KubeWharf深度剖析-以公司实际应用场景为例深度解读

申公豹

KubeWharf

云安全资源管理定义以及实现方法

行云管家

云计算 云服务 云安全 云资源

数据库的下一场革命:S3 延迟已降至原先的 10%,云数据库架构该进化了

小猿姐

数据库 云计算 Kubernetes

FPGA与DSP在通信算法实现中的应用与区别

计算机 DSP FPGA

百分点黄伟:AI认知技术如何帮助公共安全行业ConnectingDots?_文化 & 方法_百分点认知智能实验室_InfoQ精选文章