人工智能时代前沿技术社区

首页 > 大数据 > 热点

政务大数据治理

大数据在政务方面的应用越来越多,飞马网于12月20日晚邀请到马玉玺老师为大家分享该领域的内容。马玉玺老师现任深圳华傲数据高级项目负责人,负责大数据项目管理及大数据业务架构,对Hadoop、spark等有很深的研究以及丰富的实战经验。

作者: | 2018-12-21 16:20:24


大数据在政务方面的应用越来越多,飞马网于1220日晚邀请到马玉玺老师为大家分享该领域的内容。马玉玺老师现任深圳华傲数据高级项目负责人,负责大数据项目管理及大数据业务架构,对Hadoopspark等有很深的研究以及丰富的实战经验。

以下是本次分享的全部内容:

政务数据背景

首先介绍一下政务大数据的背景情况。

现状:目前我国80%以上的数据掌握在各级政府部门手里,而且是极大地浪费。

因为政府每年会接受很多系统,但是虽然存在却很少被利用。微软的数据首席官也曾经说过99.5%的大数据资源被浪费。这说明数据虽然很多,但是并没有被利用起来,导致了极大的浪费。

在十八大五中全会上面,中央人民政府指出数据是基础性战略资源,说明我们对数据越来越重视。到今天为止,各级政府比如合肥有数据资源局;杭州市有数据资源管理局;沈阳市有大数据管理局;贵阳市大数据发展管理委员会;贵州市大数据发展管理局等等。

在我国,大部门数据在政府机关,还有一部分数据是在互联网公司,还有一些在运营商里面,它们的数据是各不一样的。所以说国家的数据量是非常大,种类也是非常多的。

政务数据与互联网数据的共性和特性

互联网数据的特点

对于个人和企业来说是很容易拿到的,但是怎么用的就缺少一定的监督。

政务数据

政务数据包括公安局(户籍信息、身份证信息等)、卫计局(挂号、诊断相关的医疗数据)、市场监管委(监管类的数据)、国税局等部门的数据。

有了这么多数据,该怎么做呢?

首先要做的就是打通数据,原来我们在不停的产生数据,然后见了很多系统,但是系统之间有没有交互和数据共性呢?其实是有的,我们做了接口,但是数据还是孤立的,并没有汇聚到一起。

政务数据融合

结合政府数据这个行业的话,首先要做的就是数据汇聚。通过技术手段,建立大数据中心平台,把各个业务系统的数据采集到一起。数据采集需要做一些其他的工作,比如要保证数据的安全性,做一些监管,做一个质量方面的把控,原来的数据是分散的且质量没有标准化。

政务数据应用

采集的数据进行加工、处理、融合,形成一些高质量的数据。

最终的目的是使用这些数据,那么政府数据的应用场景有那些呢?

1、数据共享交换

针对政务数据内部一些单位的使用。

2、数据开放

很多政务数据对于共享没有明文规定,但是有一类国家已经逐步向社会开放,如上海已经建立了社会服务网,开放了政府的数据。

政务大数据的目的是为大众共用,用数据去治理社会,为国家和人民带来生活上的便利。政务数据可以有助于解决办证难、上学难、填表难、审批难、福利难等问题,让群众少跑腿,让数据多跑路。

解决政务数据问题的技术架构

很多数据原来是分散在各个数据库里面,这里的第一步是数据采集,主要是两类方式,一类是JDBC,直接对接数据库;另一类是通过FTP,吧文件存到大数据资源库里面。最下面是调度监控,日志管理,这些工具是数据采集过程中使用的。

把这些数据汇聚到一起后,最终在政务内部会建立一个资源库,这里面就汇聚了 市里面、区里面各部门的数据,现在政务的数据大部分是我们系统的关系数据,存在Oracle里面做一些数据的分析运用。

大数据技术可以处理大部分海量的大数据情况,在这个架构里面,我们通过sqoop,把历史数据和一些结构化数据,因为数据量比较大,把它存在HDFS里面,还有一些照片、文件可以存在Hbase里面。

最后吧所有的数据归集到一起后,我们做数据的服务和接口。这个接口主要通过API的方式,把数据提供到各个单位去做数据应用,数据应用主要是通过webserviceSSL传输或FTP完成,或者直接通过共享交换平台,最终达到数据应用的成效。

大部分政府数据是通过Oracle来做的,其他数据库也在用,如hive等。

整个技术用到的框架

Hadoop框架

在政务数据治理过程中整个最核心需要掌握的就是SDFN,在一个就是map reduceHadoop

整个Hadoop生态提供了比较方便的工具

Hadoopspark生态

蓝色是Hadoop,黄色的spark

大数据计算spark

Spark主要分四个框架。

spark SQL:通过SQL处理spark的数据

Spark streaming:处理流式数据

Mlib:在机器学习环境中使用

Graphx:处理图数据

最底下的是数据输入端,上面是处理端。

Spark应用场景:

1、复杂的批量数据处理

2、基于技术实时数据流的数据处理

3、基于历史数据的数据挖掘

4、图结构数据的处理


今天的分享先到这儿,谢谢大家!


以上就是本次线上直播的主要内容,想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。

微信图片_20180530151141.jpg