人工智能时代前沿技术社区

首页 > 大数据 > 热点

数据化运营使用的回归方式

回归分析包括线性回归,这里主要是指多元线性回归和逻辑斯蒂回归。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类

作者: | 2018-09-26 11:53:11 | 来源:搜狐

回归分析包括线性回归,这里主要是指多元线性回归和逻辑斯蒂回归。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。

33_副本.jpg

多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。

在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

对多元线性回归方程的参数统计,是基于下列假设的:

输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性。

随机误差的期望值总和为零,即随机误差与自变量不相关。

随机误差呈正态分布。

正态分布也称常态分布,是具有两个参数的连续性随机变量分布,第一个参数m是服从正态分布的随机变量的均值,第二个参数s2是此随机变量的方差,服从正态分布的随机变量的概率

为取与m邻近的值的概率大,而取离m越远的值的概率越小;

s越小,分布越集中在m附近,s越大,分布越散。

如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。

逻辑斯蒂回归相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单那来说,凡是预测“两选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程。

逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,甚至可以用线性公式描述因变量与自变量的关系。

与多元性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小、估值方差最小。