使用MaxCompute进行网贷业务风控预测分析

  • 时间:
  • 浏览:1
  • 来源:uu快3app赚钱_uu快3大小计划注册

三、违约评估预测结果展示

让让让我们 都 儿分别在尝试在logistics regression、随机森林、xgboost上进行模型训练并进行预测

1.在logistics regression上,利用5折交叉验证,将参数正则化惩罚项‘C’设置为0.4,正则化选折 L1正则,在验证集上9000个样本上进行预测,AUC的值达到了0.72993。



2.在随机森林上,利用5折交叉验证,将决策树的个数设置为100,决策树最大厚度设置为13,决策树有一个节点所需要用来分裂的最小样本数设置为1100,在验证集上9000个样本上进行预测,AUC的值达到了0.720267。



3.在xgboost上,利用5折交叉验证,将增强树的数量设置为113颗,决策树最大树深设置为3,最小业主节点样本权重和设置为5,在验证集上9000个样本上进行预测,AUC的值达到了0.7518100。

摘要:网络借贷处于网上实现借贷,借入者和借出者均可利用你你这一网络平台,实现借贷的“在线交易”。网络借贷分为b2c和c2c模式。一切认证、记账、清算和交割等流程均通过网络完成,借贷双方足什么都没有户即可实现借贷目的,而且一般额度也有高,无抵押,纯属信用借贷。网络借贷的风险不言而喻,构建有一个准确率高的风控系统显得格外重要,现在让让让我们 都 儿利用某网络贷款网站提供的几年来贷款风险数据(经过脱敏解决),使用机器学习的措施构造有一个能准确从借款人的资料中判断其违约的由于性(借钱不还)。

数据信息:

包括信用违约标签(因变量,违约由于不违约)

建模所需的基础与加工字段(自变量)

相关用户的网络行为原始数据

本着保护借款人隐私的目的,数据字段由于经过脱敏解决。



Master表(每一行代表有一个成功成交借款样本,每有一个样本含有100多个各类字段)



Log_Info(借款人的登录信息)



Userupdate_Info(借款⼈修改信息)

二、分析措施



1.本文中的3万记录来之于国内某网络借贷平台的经过脱敏解决的真实借贷风险数据。

2.获得的数据导入阿里云数加平台,数据表包含有每一笔借款的借款时间、借款人籍贯、借款类学历、借款人社交信息、借款人不是按期还款等等而且 字段。

3.在数加的算法平台上建立回归预测的算法流程如上图。

4.采用数加组件的缺失值统计,对每一借款人资料的缺失比例进行统计,对比其在训练集和测试集上缺失比例的分布情况汇报,剔除哪几种资料缺失异常的记录;统计每个数值型字段的标准差,剔除掉标准差几乎为零的字段,哪几种字段对结果的区分度几乎为零;

1)剔除异常值(横坐标为每有一个贷款人,纵坐标为每有一个贷款人信息的缺失字段的个数;左边为训练集中,右边为测试集中)



2)剔除标准差为几乎零的型态(以小于0.1作为剔除的阈值)



5.从信息中构造型态

1)分开统计出贷款违约的借款人和正常还款的借款人在每天的成交数量,从中还还可以看出两者的分布不一样,故看出时间对借款人不是正常还款处于区别性,而且 从成交时间中提取出月份日期信息;

2)每天的成交数量与不是履约的分布情况汇报(count_1:贷款违约,count_0正常还款)



3)将借款人的籍贯信息利用城市等级进行分类合并;由于将借款人所在城市信息作为每一两我每其他人 借款人的型态装进去xgboost中进行训练学习,得到每有一个城市的重要度排名,提取出重要度最高的前40个单独作为一类城市,而且 的城市进行合并为同一类;

4)从提供的登录信息中提取每个借款人的登录信息计算出其平均登录间隔,借款后有哪几个天才会登录等等而且 组合型态;

5)将类别型型态使用独热向量编码;

6)最后将数值型的字段进行标准化,既能加快模型的训练时延,还还可以将数据装进去有一个标准分布内,使每个型态之间的数值大小差距尽由于小。

6.将解决完毕的数据分别装进去logistics regression、随机森林,xgboost中进行分类学习,并用网格搜索各分类器达到最佳情况汇报。

7.可视化展示,将流程计算的结果,进行可视化展示。

一、违约评估架构

1.​数据源:数据包括某借贷网站提供的借款人资料以及不是按时还款等情况汇报构成的记录,一共3万条记录;

2.数据同步至阿里云:使用DataX工具将数据导入到在ODPS建立的表中;

3.流程计算:阿里云构建算法分析流程

4.分析结果:对计算出的违约风险储存于表中;

5.数据可视化展示:从数据库中读取数据进行可视化展示。