人工智能时代前沿技术社区

首页 > 大数据 > 热点

相关关系的重要性

沃尔玛是世界上最大的零售商,拥有超过200万的员工,销售额约4500亿美元,比大多数国家的国内生产总值还多。在网络带来巨多数据之前,沃尔

作者: | 2018-09-26 11:47:28 | 来源:搜狐

沃尔玛是世界上最大的零售商,拥有超过200万的员工,销售额约4500亿美元,比大多数国家的国内生产总值还多。在网络带来巨多数据之前,沃尔玛在美国企业中拥有的数据资源应该是最多的。

28_副本.jpg

在20世纪90年代,零售链通过把每一个产品记录微数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下,沃尔玛不接受产品的“所有权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

倘若得到正确分析,历史数据能够解释什么呢?零售商与天睿资讯专业的数字统计员一起研究发现了有趣的相关关系。

2004年沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间、甚至购买当日的天气。

沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POP-Tarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。

过去,总部的人员们需要先有了想法,然后才能收集数据来测试这个想法的可行性。如今,我们有了如此之多的数据和更好的工具,所以要找到相关关系变得更快、更容易了。

这就意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以这一点需要我们高度重视。

在大数据时代来临前很久,相关关系就已经被证明大有用途。这个观点是1888年查尔斯.达尔文的表弟弗朗西斯.高尔顿爵士提出的,因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?

除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运行的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。

这种对假想的反复试验促进了学科的发展。但是这种发展会非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。

总之,这是一个繁琐的过程,只适用于小数据时代。