人工智能时代前沿技术社区

首页 > 大数据 > 热点

如何玩转云时代的多方数据安全计算

关于数据安全计算。

作者: | 2019-10-09 13:58:13

一、数据安全计算是要做什么

今天讲解的主要是一些入门的基础知识,先从一个故事说起。百万富翁的故事,他们都有钱,但是并不能比较谁更有钱。假设一个人为A,有X百万;另一个为B,有Y百万。这个一定要生成加密算法,枚举后再运算。

 

第二个给大家介绍的就是竞价排名和匿名电子选举。

假设大家去做一个拍卖,现实中是大家出一个价格,把这个价格告诉第三方平台,由其衡量,但是这里面有一个问题,这个第三方平台如果把内容告诉了一方,那对其他方都不公平。理论最完美的方法是每一方都有一个出价,但是并不把价格告诉任意一方,那么如何去做。这其实就是百万富翁最直接的拓展。

 

第三个例子是商超的选址。

现在选址十分谨慎,不同位置对收入都有影响,现在大部分都用到了大数据的能力。这里有两个比较典型的案例。

数据方A:人流量数据 VS 数据方B:人流量数据(人流量占比选址权重)

数据方B:商铺销售数据 VS 数据方C:商铺周边人口(人口平均消费占比权重)

同类型数据大小对比,可以参看百万富翁的解决方案

多方数据的运算操作:除运算数据外的其他标识数据加密,也可以密文对运算法则同态

 

再应用更多的是精准营销。我们知道线下的获客成本非常高,以教育为例,到千元级别,大家都希望通过大数据做更精准的营销,但是广告方没有那么多数据,就要拿更多的其他数据进来,但是不愿意把数据拿出来,这就涉及到多方数据的安全融合;到计算的时候会遇到机器学习。

所以说再云上要做一个多方的数据计算,要做哪几点?

总结:

1、数据层面。全行业数据聚合,整合人或行业各维度画像;每一个数据拥有方的ID不一样,就需要一个平添打通支持多方接入;安全机制。

2、计算层面。支持TB级别样本数据以及百亿级别特征;多种通用算法可配置;计算环境完全隔离,为数据安全保驾护航。

3、平台层面。遵循安全标准,规避隐私风险;平台化;重权限。

1570600776727651.jpg

二、常用的一些安全计算技术介绍

数据脱敏:静态+动态

加星脱敏、散列、位移;量化控制、统一分布与完全匿名、静态脱敏

数据加密:非对称加密+混淆电路+同态加密+可信计算

混淆电路:比较古老

优点:逻辑简单,由基本的电路单元组成,任何功能函数都可组装

缺点:计算非常复杂,计算负荷非常大

同态加密:大致的思路原始数据做计算的时候,原始的做加密,另外的做计算,里面涉及很多密码学

可信计算:仅支持受保护的硬件IO,安全输入输出,内存屏蔽,封装存储,远程证明。

安全计算模型:安全计算协议+隐私保护集合交集问题+联邦学习+自编码器

隐私保护集合交集:每个数据拥有方都有一部分ID集合,求这些ID集合的交集并且不泄露交集之外的任何信息。

联邦学习:这两年比较热门的话题。在传统的机器学习中,一般会把样本和样本的特征放到一个服务器去训练,当数据量膨胀时,解决办法会引入一个服务器,通过分布式的方式存储起来,但是计算的时候还是会合在一起做传统的计算。但是很多时候条件不允许。关键词:对单独的数据做初始化,中间数据的计算会用到同态加密等。这里涉及到两个技术,对机器学习模型做改造;中间数据的计算如何做到安全。

 

三、一些典型的应用场景

1、人群洞察

综合利用各方数据源的画像、标签等数据洞察目标群体在不同维度上的分布,或者分析预测变化趋势。

特点:极大化数据融合的优势,数据价值的直接展现

适用:行情分析、舆论控制、投资分析、广告投放、其他业务分析

2、标签筛选

基于DMP的标签管理,筛选出不同数据源中的目标群体,做最终的融合,生成目标人群,进一步进行精准营销。

特点:可用维度丰富,规则简单而又高效

适用:各个行业的广告投放、精准营销目标

3、模型计算

业务深入挖掘数据信息所依赖的各种计算模型或者机器学习模型,模型不对任何用户输出。

特点:灵活、使用业务广、用户可优化

适用:个性化推荐、保密的计算需求等