人工智能时代前沿技术社区

首页 > 人工智能 > 热点

《机器学习在信贷反欺诈中得应用》

今天讲的内容包括以下四个部分:1、信贷反欺诈介绍2、信贷反欺诈算法介绍3、信贷反欺诈编程实践4、信贷反欺诈算法与业务结合应用。

作者: | 2019-06-01 22:38:59

今天讲的内容包括以下四个部分:

1559400863138598.jpg

1、信贷反欺诈介绍

2、信贷反欺诈算法介绍

3、信贷反欺诈编程实践

4、信贷反欺诈算法与业务结合应用

一、信贷反欺诈介绍

1、定义:

信贷反欺诈定义:

用户对信贷服务商进行的一种欺诈行为的预防,例如P2P对借贷者、银行信用卡中心对信用卡申请者的反欺诈博弈等。

信贷反欺诈系统定义:

对欺诈用户进行有效识别的一整套风控流程,包括行为风险识别引擎、征信系统、黑名单系统等组件。

2、重要性:

成本管理:降低服务商信贷业务整体系统风险,优化业务各项流程;自动化的辅助人工运营和模型策略优化的绝大部分。    

二、信贷反欺诈算法介绍

1、广义线性模型

逻辑回归算法

huandengpian1.jpg


建模注意的细节:

过拟合问题——往往源自于过多的特征,冗余的特征往往对模型的预测有较大的干扰。

特征处理——为保证稳定性,每个特征一般都选哦进行封箱处理。

FM算法(不需要分箱,事先分箱也可以)



huandengpian2.jpg

2、树模型

XGBoost算法

XGBoostGDBT的一种高效实现,是基于决策树的一种继承学习范式。XGBoost算法的步骤和GDBT基本相同,都是首先初始化为一个常数,GDBT是根据一阶导数,XGBoost是根据一阶导数和二阶导数,迭代生成基学习器,相加更新学习器。

优点:

正则化——标准GBM的实现没有像XGBoost这样的正则化步骤

并行处理——XGBoost可以实现,速度飞跃,支持Hadoop生态

高度的灵活性——XGBoost允许用户自定义优化目标和评价标准

缺失值处理——XGBoost内置

在已有的模型基础上继续——XGBoost可以在上一轮结果上继续训练

剪枝——当分裂时遇到一个负损失时,GBM会停止分裂。XGBoost会一直分裂到指定的最大深度,然后回过头来剪枝。如果某个节点之后不再有正值,它会去除这个分裂。 
这种做法的优点,当一个负损失(如-2)后面有个正损失(如+10)的时候,就显现出来了。GBM会在-2处停下来,因为它遇到了一个负值。但是XGBoost会继续分裂,然后发现这两个分裂综合起来会得到+8,因此会保留这两个分裂。


3、深度学习模型

Deep&Wide Model:谷歌在2016年发表的论文中所提到的模型。在论文中,谷歌将 LR 模型与深度神经网络结合在一起作为Google Play的推荐获得了一定的效果。在Deep& Wide Model中,Wide部分就是线性模型,它包含一些组合特征,特征都经过类似于one-hot encodding处理成0-1binary特征。deep 的那部分是一个深层神经网络,输入是特征包括高维度的categorical特征,它首先会转化成一个低维度实数向量,即一个embedding vector,一般维度选择可以从10 100,随机初始化这些vector之后,通过最小化最终的loss进行学习。这些vector输入到神经网络中并前向传递到最后。最终两组数值是通过加权求和之后再sigmoid变化得到预测值(即两组数值输入到一个logistic回归里) 

Deep& Wide Model 属于joint training 模式,joint trainingensemble不同的地方就是ensemble是单独的训练各个模型, joint training是在训练过程同时训练多个模型另外,ensemble因为是独立的所以各个模型需要非常大(因为特征和特征组合比较多),而joint training中的deep部分只需要部分wide部分的特征而已。在实际求解中,使用了FTRLL1来优化wide部分,使用AdaGrad来优化deep部分。

三、信贷反欺诈编程实践


四、信贷反欺诈算法与业务结合应用

1、数据采集

基础信息:年龄、性别、学历、婚姻状况、工作行业、经济能力、住房;

信贷记录:央行征信报告、第三方风控服务商和征信公司;

消费记录:第三方数据源(购物、消费、转账);

社交关系:运营商等数据源;

2、流程:身份信息核验——规则引擎初筛——申请准入分评估

——身份信息核验则包括标准化的人脸识别、公安部人口信息核验(姓名、手机号、身份证、家庭住址等)

——规则引擎初筛表现为人工初始化一些强特征,包括是否黑名单、是否多头借贷、是否是低收入水平人员、是否有过逾期历史等等,这类特征在大样本下通常被大概率覆盖到劣质用户群体,通过规则引擎初筛能避免大部分的申请风险。

——准入申请信用分评估是信贷申请准入的最后一道流程,也是至关重要的一环,这一流程的评估直接决定了是否要给申请人发放贷款资金。准入申请分的目标变量不同信贷机构会略有差别,有的是以用户优质指数为标准,有的是以是否逾期(又或逾期n天以上)为标准,有些则直接以是否欺诈为标准。

准入申请信用分构建:

特征采集与业务目标确定

采用合适的机器学习算法对历史数据训练拟合,计算申请人群的贷款欺诈概率

根据评估的概率分布与给定信用分区间设计概率与分数的分段函数

多次交叉验证该分段函数的方差变动情况

上线批量测试

定期迭代调优