时值蚂蚁上市之际,马云在上海滩发表演讲。马云的核心逻辑其实只有一个,在全球数字经济时代,有且只有一种金融优势,那就是基于消费者大数据的纯信用!
我们不妨称之为数据信用,它比抵押更靠谱,它比担保更保险,它比监管更高明,它是一种面向未来的财产权,它是数字货币背后核心的抵押资产,它决定了数字货币时代信用创造的方向、速度和规模。一句话,谁掌握了数据信用,谁就控制了数字货币的发行权!
数据信用判断依靠的就是金融风控模型。更准确的说谁能掌握风控模型知识,谁就掌握了数字货币的发行权!
作者 Toby,持牌照消费金融模型专家,有金融风控模型算法专利,和中科院,中科大教授保持长期项目合作;和同盾,聚信立等外部数据源公司有项目对接。熟悉消费金融场景业务,线上线下业务,包括现金贷,商品贷,医美,反欺诈,汽车金融等等。模型项目200+,擅长Python机器学习建模,对于变量筛选,衍生变量构造,变量缺失率高,正负样本不平衡,共线性高,多算法比较,调参等疑难问题有良好解决方法。 课程介绍
lendingClub是美国最早金融信贷公司,堪称P2P鼻祖。针对消费金融,现金贷等线上贷款场景,此教程教会学员如何运用python+catboost+lightgbm等算法建立风控审批模型。实操项目包括P2P的lendingClub和消费者信用评分百万奖金挑战赛,课程建模数据量10万+。 之前博主录制《python信用评分卡建模(附代码)》课程是针对逻辑回归评分卡模型;《python风控建模实战lendingClub》此课程是针对集成树模型,包括catboost,lightgbm,xgboost。两个课程算法原理是不同的。
此课程catboost集成树算法有诸多优点,2018年教新算法,秒杀xgboost,自动化处理缺失数据,自动化调参,无需变量卡方分箱。学员学完后不再为数据预处理,调参,变量分箱而烦恼。此教程建立模型性能卓越,最高性能ks:0.5869,AUC:0.87135,远超互联网上其它建模人员性能。
《python风控建模实战lendingClub》视频教程 : https://edu.51cto测试数据/sd/7c7d7
课程目的
为了从银行/消费金融公司的角度将信贷损失降到最低,银行需要制定决策规则,确定谁批准贷款,谁不批准。 在决定贷款申请之前,贷款经理会考虑申请人的信用水平。lendingClub信贷数据包含有关100多个变量的数据,以及10万多个贷款申请者被认为是好信用风险还是坏信用风险的分类。 预期基于此数据开发的预测模型将为银行经理/CRO/贷前审批人员提供指导,以根据他/她的个人资料来决定是否批准准申请人的贷款。
实用人群
银行,消费金融,小额贷,现金贷等线上贷款场景的风控建模相关工作人员,贷前审批模型人员或想今后从事模型岗位工作人员;大学生fintech建模竞赛,论文,专利。
课程特点 1.了解机器学习建模实战,lendingClub包含几十万条实操数据,消费者信用评分竞赛也有十万多建模数据。学员可以跟着视频筛选变量,建模,体验快乐成功感! 2.课程为实战类,提供课程涉及python代码和建模数据,在第17课的参考资料下载(电脑端登录) 3.完善售后服务,提供售前售后答疑。
课程目录
章节1 python编程环境搭建 课时1风控建模语言,python,R,SAS优劣对比 课时2Anaconda快速入门指南 课时3Anaconda下载安装 课时4canopy下载和安装 课时5Anaconda Navigator导航器05:38 课时6python第三方包安装(pip和conda install) 课时7Python非官方扩展包下载地址 课时8Anaconda安装不同版本python 课时9为什么使用jupyter notebook及如何安装 课时10如何用jupyter notebook打开指定文件夹内容? 课时11jupyter基本文本编辑操作 课时12jupyter生成在线PPT汇报文档 课时13jupyter notebook用matplotlib不显示图片解决方案
章节2 python编程基础 课时14Python文件基本操作 课时15python官网 课时16变量_表达式_运算符_值 课时17字符串string 课时18列表list 课时19程序的基本构架(条件,循环) 课时20数据类型_函数_面向对象编程 课时21python2和3区别 课时22编程技巧和学习方法
章节3 python机器学习基础知识 课时23UCI机器学习数据库介绍 课时24机器学习书籍推荐 课时25如何选择算法 课时26sklearn机器学习算法速查表 课时27python数据科学常用的库 课时28python数据科学入门介绍(选修)
章节4 lendingClub业务介绍(P2P鼻祖) 课时29lendingClub业务简介 课时30lendingclub债务危机及深层次时代背景 课时31lendingClub官网数据下载(或本集参考资料下载)
章节5catboost基础介绍 课时32catboost基础知识讲解-比xgboost更优算法登场 课时33catboost官网介绍
章节6 lengding Club实战_catboost分类器模型 课时34数据清洗和首次变量筛选 课时35catboost第三方包下载和安装 课时36import导入建模的包 课时37读取数据和描述性统计 课时38train,test训练和测试数据划分 课时39fit训练模型 课时40模型验证概述 课时41树模型需要相关性检验吗? 课时42交叉验证cross validation 课时43混淆矩阵理论概述,accuracy,sensitivity,precision,F1分数 课时44混淆矩阵python脚本实现 课时45计算模型ks(Kolmogorov-Smirnoff) 课时46catboost1_建模脚本连贯讲解 课时47catboost2_第二次变量筛选 课时48catboost3_分类变量cat_features使用
章节7KS(Kolmogorov–Smirnov)模型区分能力指标 课时49KS简介 课时50step1获取模型分 课时51step2_计算ks_方法1 课时52step3_计算ks_方法2 课时53step4_计算ks_excel推理 课时54step5_绘制KS图 课时55step6_KS评估函数 课时56step7_KS脚本汇总_分治算法 课时57step8_KS缺陷
章节8AUC(Area Under Curve)模型区分能力指标
课时58 ROC基本含义 课时58excel绘制ROC曲 课时59python计算AUC很简单 课时60python轻松绘制ROC曲线 课时61AUC评估函数_AUC多大才算好? 课时62Gini基尼系数基本概念和AUC关系
章节9pickle保存模型 课时63pickle保存和导入模型包_避免重复训练模型时间
章节10PSI模型稳定性评估指标(上) 课时64拿破仑和Hitler征服欧洲为何失败?数学PSI指标揭露历史真相 课时65excel手把手教你推导PSI的计算公式 课时66PSI计算公式奥义 课时67PSI的python脚本讲解
章节11PSI模型稳定性评估指标(下) 课时68step1.筛选lendingClub2018年Q3和Q4数据 课时69step2_计算train,test,oot模型分 课时70step3.计算Q3和Q4模型分PSI
章节12模型维度与边际效应 课时71边际效应基本概念 课时72模型维度与边际效应,变量越多越好吗? 课时73降维实操,结果让人吃惊! 课时74模型变量数量越多,区分能力(ks)越高吗?
章节13catboost分类变量处理 课时75 One-hot encoding热编码 课时76 cat_features分类变量处理(数值型)1 课时77 cat_features分类变量处理(字符串类型) 课时78 不同分类变量处理方法的结果对比
章节14catboost调参 课时79GridSearchCV网格调参简述 课时80iterations树的颗树 课时81eval_metric评估参数(logloss_AUC_Accuracy_F1_Recall) 课时82learning_rate学习率 课时83树深度depth(max_depth) 课时84 l2_leaf_reg正则系数L2调参
章节15多算法比较 课时85xgboost分类器模型 课时86lightgbm分类器建模 课时87逻辑回归分类器和多算法比较结果
章节16消费者信用评分实战_回归模型 课时88机器学习回归竞赛_一百万奖金挑战 课时89线性回归基础知识(最小二乘法OLS) 课时90梯度下降法gradient descent 课时91误差error_偏差bias_方差variance 课时92shrinkage特征缩减技术_正则化 课时93ridge岭回归_lasso回归_elasticNetwork弹性网络 课时94sklearn_ridge岭回归脚本 课时95逻辑回归_regression脚本 课时96支持向量回归SVR脚本 课时97随机森林randomForest回归脚本 课时98xgboost regression回归脚本 课时99catboost regressor回归脚本 课时100lightgbm基础知识讲解 课时101lightgbm regressor回归脚本 课时102sequencial线性模型回归预测脚本
信用逾期高发时代
随着我国居民消费心理发生改变和各大商家诱导性消费,不少朋友越来越依赖超前消费了。我国14亿人口,消费群体庞大,各类产品也有着很大的市场,于是现在的消费信贷市场成了很多银行或者其他机构发力的方向。根据央行公布的数据来看,商业银行发行的信用卡数量继续扩张,但在“滥发”信用卡的背后,逾期坏账不断增加也成了银行头疼问题。
信用卡逾期半年以上坏账突破900亿
近日,央行公布了三季度支付体系的运行报告,从央行公布的数据来看,我国商业银行发行的信用卡数量、授信总额以及坏账总额均在保持增长。
数据显示,截至今年三季度末,我国商业银行发行的信用卡(包括借贷合一卡)的数量达到了7.66亿张,环比增加1.29%。总授信额度达到了18.59万亿元,环比增加3.80%。
下卡量在增加,加上授信总额在不断增长,说明银行依旧非常重视信用卡市场,但同时这也给银行带来了不小的麻烦。因为截至今年三季度末,信用卡逾期半年以上的坏账来到了906.63亿元,环比大涨6.13%。
信用卡下卡数量不断增加,说明在初审阶段银行并没有管理的太严格,因此坏账增加是客观会存在的问题。但作为专业的金融机构,银行显然是不会坐视坏账继续涨下去,不然就会影响到银行的正常经营,也会引起监管层的注意。
所以在这种情况下面,商业银行会对已经下卡的客户进行管理,一般是在消费场景以及防范套现上面下功夫。所以为了你不被银行二次风控,从而对你的信用卡封卡降额,一些不合规的刷卡消费最好还是别碰。
银行风控负责人改如何应对持续上升信用卡坏账?作者认为识别坏客户(骗贷和还款能力不足人群)是关键。只有银行精准识别了坏客户,才能显著降低逾期和坏账率。
之前银行是当铺思想,把钱借给有偿还能力的人。这些人群算是优质客群。更糟糕的是但随着量化宽松,财政货币刺激,M2激增,银行,消费金融公司,小额贷公司纷纷把市场目标扩大到次级客户,即偿还能力不足或没有工作的人,这些人还钱风险很高,因此借钱利息也很高。
国内黑产,灰产已经形成庞大产业链条。根据之前同盾公司统计,黑产团队至少上千个,多大为3人左右小团队,100人以上大团队也有几十上百个。这些黑产团队天天测试各大现金贷平台漏洞,可谓专业产品经理。下图是生产虚假号码的手机卡,来自东南亚,国内可用,可最大程度规避国内安全监控,专门为线上平台现金贷诈骗用户准备。如果没有风控能力,就不要玩现金贷这行了。放款犹如肉包打狗有去无回。
举个身边熟悉例子,作者在之前某宝关键词搜索中,可以发现黑产和灰产身影。
关键词:
注册机,短信服务,短信接收,短信验证,app下单,智能终端代接m
黑产市场风起云涌,银行风控负责人改如何应对持续上升信用卡坏账?作者认为识别坏客户(骗贷和还款能力不足人群)是关键。只有银行精准识别了坏客户,才能显著降低逾期和坏账率。如何精准识别坏客户,改课程会手把手教你大家Python信用评分卡模型,精准捕捉坏客户,此乃风控守护神。
风控模型可以成为贷款人和借款人计算借款人偿债能力的绝佳工具。对于贷方而言,模型可以帮助他们评估借款人的风险,识别是否是骗贷用户或还款能力不足用户,并帮公司维持健康的投资组合 - 这最终将影响整个经济。
模型就像一个黑箱,当用户申请贷款时,模型会根据用户信息,例如年龄,工作,职位,还款记录,借贷次数等维度自动计算客户坏客户概率。业务线如果用模型计算出某用户坏客户概率较高,例如0.8,就会拒绝改客户贷款申请。
因此风控模型就像信贷守护神,保护公司资产,免受黑产吞噬。
数据下载地址
第78课,模型训练截图
模型最高性能,ks:0.5869,AUC:0.87135,远超互联网上其它建模人员性能。
欢迎学习更多金融风控建模知识: python金融风控评分卡模型和数据分析微专业课 https://edu.51cto测试数据/sd/f2e9b
查看更多关于基于LendingClub数据的python风控建模(附脚本和10万多真实信贷数据)的详细内容...