• English
  • 收藏
  • 设为首页
  • 工作邮箱
微信公众号
分享
大数据背景下公安数据分析平台建设
来源:大数据部 时间:2020-03-12

 

随着公安信息化的高速发展,公安各级部门积累了海量的业务数据。如何快速挖掘其内在价值,已成为公安信息化迫切需要解决的关键问题。因此,需要运用科技手段,提高公安部门的信息侦查、数据收集、智能分析、经侦调度、精准预测分析能力,构建符合公安实战所需要的智能大数据支撑体系。

一、建设目标

面向公安实战需求开展数据的深度整合和综合利用,构建一套基于大数据的统一数据采集、存储、分析、挖掘、应用的综合平台,实现以下目标:

l 数据资源大整合,构建齐全、鲜活的数据集市。

抽取、清洗、转换、汇集跨地区、跨警种的各类数据,组建由公安内部、外部数据、互联网数据等组成的基础数据库;面向信息检索、数据分析和专题应用需求重新构建的专题数据库;形成数据齐全、归类清晰的数据集市。

l 构建高效处理、安全存储的大数据平台。

采用云计算架构,构建大数据平台。通过云计算、分布式存储、分布式计算、内存计算等技术手段提高数据处理能力,提高对非结构化数据,大容量数据的存储及处理能力,满足各类应用数据处理要求。

l 构建标准化、多样化、高效的数据共享平台。

按照统一标准,分类别封装通用的数据访问、数据互操作、应用功能类、数据交换、信息布控等接口,通过服务总线形式提供,并由共享门户展现,满足基层数据共享需求。

l 深化数据应用,构建切合实战的数据应用平台。

根据一线实战需求的共性,开发部分通用的数据应用,譬如云搜索、信息比对、信息布控、背景审查等。借助大数据高效数据处理能力,开发对数据的深度应用,譬如智能碰撞、关系人挖掘、情报线索分析等。

二、建设内容

建设方案分为数据资源、数据服务、数据应用三个层面,整体架构如下:

1:架构图

(一)数据资源层

1、数据采集

1)数据源

数据源主要包括公安内部外部数据。其中,公安内部数据以警务综合信息应用平台和业务系统为主要数据来源,实现不同警种业务数据的标准整合;公安外部数据通过部门间共享服务平台获取的社会单位数据为主要数据来源,包含互联网数据和其他多媒体数据的获取,实现外部单位各类数据的标准化整合。

2)采集模块

建设统一的数据采集模块,实现基于标准表单、文本数据及相关视频、图像、语音等多媒体数据的批量导入、逐条录入和维护管理等系统功能,并进行自动分类,导入采集资源库。

在采集入库的过程中,按照背景信息、动态信息、关系信息、特征信息的要素进行分类,建立规范化的数据描述方法和清洗转换规则,实现社会数据资源的规范化建库。主体建立包含背景信息库、动态信息库、关系信息库、特征信息库等数据采集资源库。

2、数据预处理

通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正,多余的数据去除,进而将所需的数据挑选出来,并且进行数据集成。

实现对抽取的数据资源进行加工的能力,例如空值校验转化、字符串操作、字符串替换、新增字段、添加JSON字段、表码映射等。

基于特征要素模型,实现对文本内容的全文解析,并能够将文本中涉及到对象特征,诸如:身份证、手机号码、电子邮箱、QQ号码、车牌等特征要素转化为结构化数据进行存储。

3、数据存储

l 对象建库

对于所各类纷繁复杂的公安数据资源,主要形成基础数据库、全文检索库、对象主题库、碰撞分析库、关联分析库来进行存储管理。

l 结构化存储

对于所采集汇聚的数据资源,主要以结构化数据维护且总量有限,采用Oracle关系型数据库来进行存储管理。

l 非结构化存储

HDFS(分布式文件系统)是Hadoop架构的支撑性平台,作为HBase\HIVE等大数据库的分布式运行系统,为其提供存储扩展能力、容错能力、吞吐能力等。HDFS本身也适合存储单个文件体积较大的内容,如视频文件、音频文件、历史数据归档打包文件等等。

在本项目的基础库设计中,对于非结构化数据,主要是以文本、视频、图片为主,拟采用HDFS作为外部采集文本、视频、图像的存储容器,并利用HBase为各个文件实体构建索引及相关描述信息,为资源的进一步检索及调用奠定基础。

在对数据的关联整合过程中的关键词标签数据和索引信息,其存储管理模式可根据具体数据量情况选择确定。

4、数据管理

1)数据标准管理

主要是依据上级部门提供的标准(具体标准的内容有:数据元、限定词、数据项),创建本地的数据标准规范,具体内容包括有:数据元管理、同义词管理、限定词管理、标准数据项管理。

2)数据资源管理

数据资源管理用于数据资源的统一管理,以实现数据资产的有效管理,提升数据资产管理及运营能力,辅助建立数据资源资产化管理机制、数据资源运行维护管理机制、数据质量提升机制。

数据资源管理系统主要包括数据资源注册、数据资源编目、数据质量管理和数据运行监控

3)数据质量管理

数据质量管理提供数据质量问题发现、数据质量问题监测及跟踪、数据质量分析、问题数据应用等功能,帮助用户了解数据质量情况,发现数据质量问题,持续监测数据质量,分析数据质量趋势和对比情况,跟踪问题数据修复情况,从而辅助用户建立数据质量提升机制。

不同来源的数据在基础数据资源库进行清洗、整合,通过数据资源注册功能,实现各类数据源及数据资源统一注册管理,提供丰富的元数据信息。

5、数据分析

1)大数据计算

基础数据集群中存放的往往是低价值密度的数据,经过多种大数据计算方法加工处理后,可提取出高价值密度的数据,适用于对海量数据进行数据挖掘、建模,以支撑精准营销、决策分析、信息安全等应用场景。

主要应用的大数据计算方法包含在线处理集群(Spark)、离线处理集群(MapReduce)、流式处理集群(Storm)、图计算集群(Neo4j)、全文检索集群(SolrCloud)、自然语言处理(NLP)等。

2)数据挖掘

数据分析挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含的、不可预知的、具有潜在利用价值的信息和知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。主要数据挖掘方法包含:分类分析、回归分析、聚类分析、关联分析等。

(二)数据服务层

实现对本地应用的统一接入,减少应用系统对底层数据库的直接访问,提高数据安全性,解决部门以及协作区域间信息服务资源的简便对等开放、共享标准规范、本地信息资源集中管理、面向应用服务的统一接入、高可用服务支撑能力、安全审计等一系列问题。

l 接口层建设

自主比对接口:通过数据源信息和比对条件,进行数据源比对,返回比对结果。

全文搜索接口:该接口实现省厅资源服务平台云搜索模块中的人员全文搜索功能,搜索条件支持关键字搜索,返回内容包括人员基本信息和匹配命中信息,其中人员基本信息包含姓名、身份证号、民族、户籍地区划等信息。

l 服务总线模块

云服务总线系统,是基于数据整合和信息共享的集成中间件。它采用分布式的总线结构,支持像Hbase之类的云数据库,还支持大数据查询工具Impala,实现对构建在Hadoop之上的分布式数据库,直接用REST方式来快速查询出数据。

l 标准化平台

建立公安实体标准库,通过多种途径获取权威的数据元、限定词、公安部部标国标代码,结合系统代码使用情况,建设一套符合公安的标准实体库,用户查询和下载

 

 

2:数据接入流程

(三)数据应用层

针对公安海量数据的全方位解析,结合公安部门的信息侦查、数据收集、智能分析、经侦调度、精准预测分析等实际工作需要,平台提供一系列大数据智能应用,全方位满足公安系统的工作需求。

1、目标人物画像

目标人物画像模块主要通过大数据离线运算,整合所有公安系统数据对“人、案、物、组织、地址”等基本要素形成个性化标签,进而形成目标人物长期画像;同时通过大数据实时运算,形成目标人物的实时标签和短期画像。目标人物画像需要支持自动学习扩展的体系,通过自学习体系对新的标签进行收集,形成标签库,对标签进行统一的管理。

3:目标人物画像

2、知识图谱

知识图谱利用图数据库的天然优势,直接将公安系统各项数据以“人、案、物、组织、地址”等为基本要素,对不同来源、不同类型的基础数据,应用按要素提取关键字段,建立要素内的关联关系,形成关联库,将诸姓名、身份证、手机、地址、家庭电话、联系人、亲属关系、行为轨迹、涉案信息、违法犯罪信息等设计成图谱的节点,定义好图谱所需的所有节点和节点属性后,定义两两节点间的关系。

根据业务需求进行知识图谱构建构建完成后,用户可以直接在关联图谱平台上,输入某个节点值查询节点的关联信息,看其关联范围内的涉及到的人、财物、案件信息,看该节点是否与其他节点关联成案件联动,看节点与历史的黑节点间是否有过关联等等,有利

于案件的侦破及突发事件快速反应。

 

4:知识图谱

3、智能云搜索

充分利用云计算技术,提供一站式智能搜索,智能解析搜索意图,提高搜索精度。并以智能检索模式展示给用户,从而实现数据的可视化。

l 关键词检索:

提供使用简单的检索入口(符合用户搜索习惯的查询界面,类似谷歌或百度的界面操作),用户输入关键词后进行跨库全文检索,可分库统计结果数,并可点击结果记录查看详情。

l 高级检索:

支持通配符检索、轨迹检索、多类人员检索、时间段检索、年龄段检索等多种专业检索方式。

l 检索资源自定义分类

检索时可选择数据资源的范围,支持数据资源的多维度配置管理和选择,便于过滤掉不相关的干扰结果。系统后台可对数据表进行不同维度分类管理,用户可根据需要建立按五要素分类、按资源库分类、按业务分类等,在检索页面上用户可以方便的选择某一类/几类,甚至其中的一个或多个数据表,检索结果按照选择的维度分类分数据源分表进行展示。

l 主题库监控

利用全文高速比对引擎,根据不同的业务需求,将公安敏感信息数据建立比对主题库。在用户的查询命中结果中,系统自动与被监控主题库进行自动比对,将比中信息进行标注。

5:智能人员搜索

6:智能分类搜索

4、比对碰撞

针对公安的海量数据实现自定义碰撞,最大限度的发掘信息资源的关联应用效益为掌握对象活动轨迹信息、优化情报分析工作和侦察破案工作提供有效支撑从而进一步提升公安数据的应用水平。能够更好地面向实战、服务基层提高基层民警在实战中的信息化应用意识、应用技能和应用水平从而进一步提高公安机关的整体素质和战斗力

自主比对系统通过界面拖拽的方式,实现了数据的任意碰撞。用户可以非常容易的进行自定义规则进行碰撞,支持两两数据源的碰撞,还支持多数据源的碰撞。自主比对系统不仅支持单点的碰撞比对,还支持分布式的碰撞比对。譬如:省厅里的某些数据在本地数据源里面没有碰撞出来,可以分布到各个地市的数据源里进行碰撞,然后将碰撞的结果分别返回并进行合、汇总,然后统一展示。

 

 

7:关系碰撞

5、关系人应用

整个系统公安业务基础数据以及各类人员活动轨迹为依托进行各类关系的计算和关系服务提供,提升公安民警的工作效率

该系统主要功能为提供用户的基础关系查询:用户输入查询条件后,在关系显示区显示出该搜索条件的关系圈,并且可以在此关系圈的基础上进行关系挖掘操作功能;用户可以上传一批身份证,对这一批身份证进行批量的关系碰撞功能;用户可以根据已查询的关系信息进行不同关系分类的二次关系挖掘;用户可以根据已查询出来的关系

链接进行关系轨迹跟踪,进行下一步的关系确认。

 

8:关系人搜索

6、轨迹分析

对个人轨迹信息进行可视化展示,并分析周围出现人群的前科情况以及与目标人员之间存在的关系。

 

9:人员轨迹分析

 

作者:崔永庆,全拓数据董事长兼CEO

 

(本文发表于由国家信息中心数字中国研究院编辑出版的《数字中国建设通讯》2019年第6期)