首页 > 大数据 > 热点

你听过大数据分析,那你听过图数据分析吗?

现在,相信很多人对“大数据”、“大数据分析”等词耳熟能详了,但是你听过图数据分析吗?

作者:谭盼雨 | 2017-07-03 09:33:39 | 来源:飞马网原创

现在,相信很多人对“大数据”、“大数据分析”等词耳熟能详了,但是你听过图数据分析吗?

2017年6月30日,飞马网邀请业内知名专家高彦杰来为大家在线直播讲解“图数据分析”及“图数据分析技术”,带你深入了解数据分析中的另一方面——图数据分析。

高彦杰,微软研发工程师,多年大数据处理系统与数据分析经验。开源技术爱好者。曾著有:《Spark大数据处理技术》,《Spark大数据分析实战》。

 在讲图数据分析之前,高老师先给我们讲了一个概念:图计算。他告诉我们,图计算,是挖掘人、物和实体之间潜在不易察觉的行为和联系。而这些联系很难用传统数据库来表示,因此需要用图数据分析来表示。

高老师说,对于网络科学而言,世间万物都可以抽象成点,而事物之间的关系都可以抽象成边,而点和边是不局限于人的。比如我们在做复杂的计算机网络分析的时候,点就是服务器,而边有可能是互相发的流量包,也有可能是物理上的局域网等,因此点和边是非常宽泛的。

1.png

为什么要用到图数据分析?

传统数据库是个二维表,而人与人的关系数据是个定长的关系,同时在查询与朋友、或朋友的朋友的关系网时,需要做不断地访问,而传统数据库里存在两个问题:第一,数据是定长的,很难适应这种变化;第二,在做便利分析的时候需要做大量的连接操作,是不太适合的。所以才会衍生出新的数据处理范式。

在了解了为什么要用到图数据分析后,高老师又给我们介绍了当前图数据分析的主要类型及应用行业。

图数据类型及应用行业示例

1、流量网络。帮助预测检测路网中的事件,也可以帮助检测网络安全。

2、生物信息计算。如对蛋白质分析做抽象,对一些疾病做预测等。

3、社交网络。这是我们最熟悉的方面,如微博/微信,里面有人与人之间关注的关系、朋友关系。通过图数据分析,可以根据人与人之间的关系以及人自身的信息来做广告推销,挖掘用户,进而来产生价值;另外也可以根据人与人间的金钱流动来做一些数据建模,做金融反欺诈分析等。

高老师表示,图数据分析存在于各行各业,有越来越多的企业在自己的IT系统里做数据图库,简单的可能只是数据查询的功能,复杂的也有机器学习的运算。

从技术上层面上讲,图数据分析的工作负载有以下两大类型:

一、在图数据库上,做在线查询。比如查询朋友的朋友,按年龄段查询等。

二、离线网络分析迭代算法。如PageRank等。考虑到网页之间的关系、权重及传递等,来利用排序算法来进行网页排序。

高老师以金融行业为例,告诉我们图数据分析在具体细分行业中的应用。

在金融行业中,通过图数据分析可以清楚地知道洗钱网络及相关嫌疑人。例如对用户所使用的账号、发生交易时的IP地址、MAC地址、手机IMEI号等进行关联分析。

但因为图计算不是单纯的所有的点、线都有一个属性,他们的属性是不固定的。根据在手机端、web端等不同端口上,有些人有属性,有些是没有的。另外在金融反欺诈的数据构建中,其数据源是比较广泛的,包括公司内和公司外,我们不仅要重视公司内的信息,公司外的信息数据也是非常重要的。

2.png

除了金融行业外,还有很多其他的应用场景,也都需要用到图数据分析。如社交网络,你可以根据人与人之间的社交网,可以找到自己想找的人;再比如根据社交网络的图分析来挖掘潜在用户、运营商根据图数据分析来筛选目标客户,来做精准营销等等。

图数据分析背后的底层技术支持

了解了了图数据分析的应用场景后,相信很多人都好奇其底层的图数据处理技术是怎样的。下面,高老师就分两部分为我们讲解。

(1)在线查询的图数据库

3.png

从图可以看出近几年的图数据库发展趋势。对此,高老师表示,大多数时候,我们队技术或软件更看重的是商业的价值,大家都在关注的话,就需要去学习。以NoSQL为例,高老师告诉我们,NoSQL是一类范围非常广泛的持久化解决方案,他们不遵循关系数据库模型,也不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常回避免使用SQL的JOIN操作,一般有水平可扩展特性。NoSQL大部分的应该场景是做数据分析。

图数据库的示例有:

4.png

5.png

图数据存储特点

1、包含节点和边

2、节点上有属性;

3、边有名字和方向,并总是有一个开始节点和一个结束节点;

4、边也可以有属性。

基本表达形式:

G=(v,E)

V=vertex(节点)

E=edge(边)

传统的关系型数据库是一个二维表,每一列有固定的属性,设定长的;而图数据库每一个点可以看做是一个记录,每个点与其他店都有关联,从这一点上来说,传统的关系型数据库处理的时候有局限。

(2)离线分布式并行图分析框架

8.png

目前的图计算框架,基本上都是遵循BSP计算模式。BSP全称Bulk Synchronous Parallell,由哈佛大学Leslie Valiant和牛津大学Bill McColl提出。在BSP中,一次计算过程由一系列全局超步组成,每一个超步由并发计算,通讯, 栅栏同步三个步骤组成。同步完成,标志着该一个超步的完成,以及下一个超步的开始。

在直播最后,高老师在线热心回答了网友们的众多问题,看来看看有没有你关注的!

Q:如何才能精准的找到几个数据之间的关联关系呢?

A:由于数据源比较多,在数据源集成的时候,可以根据ID或电话等规则将其集中在数据库里,通过公共的属性将其集合在一起,然后根据一定的条件或标签去筛选,去查询。

Q:运营商如何得到用户的兴趣图谱?

A:现在由于互联网规范,很多用户的信息运营商没那么容易拿到了,但可以根据用户经常访问哪些网页,有哪些偏好等习惯,将这些统一集中起来放在数据库里,就可以得到用户的兴趣图谱了。

Q:怎么才能为图数据库定义一个良好的设计图呢?

A:这个与关系型数据库不同,关系型数据库需要提前设定列,但图数据库是不同的,它不局限你这个列,它是可以变化的,后期也可以更改,因此数据模式还是比较灵活的。

Q:业务数据模型(如:反欺诈)是怎么建立的?

A:是根据业务人员定的规则来的,当指示图构建出来后,上面的反欺诈模型就是写出来的规则。大部分的查询是根据规则来构建出来查询模型的。

Q:电信信令数据或网管数据,格式不同,数据量大,如何实时分析?

A:应对模式不太一样的问题,数据量大的话,现在也有可以实时处理框架,如果要的时段特别长的话,可以采用离线的方式来做分析。

Q:如何快速收集关系型数据库里面的关键字段来建立模型?

A:关系型数据库可以作为图数据库的数据源,可以与图数据库的点相对应,然后将其导进图数据库里。

Q:那性能和安全方面会比关系型数据库更优么?

A:这个不能单一地理解这个问题。因为有些图数据库的很多提升和优化也是基于关系型数据库和查询技术来做的。图数据库的优势可以这么理解,同样的场景下,做关系型数据库时,可能需要多做一些额外的操作,而图数据库避免了这些操作。性能这个问题要在特定场景下来分析,所以不能单一说。所以而安全方面,图数据库面对的安全问题与关系型数据库大致一样,同样依赖于底层数据库安全机制的支持。

现在,你是不是对图数据分析有了一定的了解呢?你还想了解更多关于大数据等技术相关问题吗?那就来“FMI2017-人工智能与大数据高峰论坛”吧,2017年8月5日,北京国家会议中心,有一场技术人的盛宴等你来参加!

【责任编辑:谭盼雨】