夸客大学:案例演示大数据风控建模

数据观  •  扫码分享

大数据风控建模的核心思路是以史为鉴。如果不相信历史事件会重复,那就没有建模的必要。但如果你相信历史事件会百分之百的被复制,那么你的模型就一定是错的。

大数据正在改变金融!

2015年在国内融资的大数据创业公司达到51家(有两家公司一年融资两次)总融资金额超过50亿人民币。

针对 大数据行业 应用的创业公司占52%,其中提供营销和金融风控数据服务的创业公司最多。

那么问题来了!金融+大数据究竟改变了什么?

传统金融:追求绝对安全。银行申请贷款虽然有贷款成本低的优势,但是银行风险运营模式的缺点也很明显:客户需要提供很多纸质材料原件及复印件、审批时间长、甚至要接受信审员的多个电话照会及实地考察。这样的模式能做到对每个放贷个案风险评估的精益求精,但却不适用于小微金融、个人消费金融等新兴金融服务业。

新兴金融服务:客户体验至上。要做到不让客户为了申请十万不到的小额贷款甚至一万不到的消费贷款提供太多证明材料和等待更长时间。同时,传统风控运营模式对信贷员的风险判断能力也有要求,如果用这种模式去应对大量的小额分散的个人金融服务申请进件,必然会导致风险运营团队规模过于庞大,运营成本无法被覆盖的问题。

风险审批的信息化、数据化、系统化和自动化成了新兴金融服务的必然发展趋势,新兴金融服务业的竞争也集中在产品能力、互联网技术、数据技术、客户体验等方面。

大数据技术应用于金融服务可以使金融服务的核心——风险控制获得多方面的技术革新。

1.数据驱动的机器学习方法相较于人为判断——具有迭代频率高、善于获取隐性信息以及无学习惰性和瓶颈等优势。

2.在风控运营中引入数据模型作为判断依据——最大程度上避免因个人差异化导致的风险政策执行上的偏差,降低操作风险。

3.互联网数据采集技术—–客户信息、行为数据不再通过纸质化申请材料提交,机构在极短时间内自动实现信息对称,降低运营成本。

大数据助力金融风控

市场契机:2015年中国人民银行开放8家个人征信公司试运营,为正式下发个人征信牌照做准备工作。个人征信公司的起步,丰富了大数据的种类和来源。

市场现状:目前应用比较成熟多见的金融大数据包括“征信及验证数据”(政府,行业信息互通共享)

传统金融数据:银联卡线下消费行为,目前也涌现出了用手机号匹配个人金融行为全画像的产品

互联网大数据:主要采用互联技术采集客户行为,在客户多重授权下,获取手机通信记录、线上购物支付画像以及学历学位等信息。

解决了这些痛点:贷款联系人的真实性——现在可以通过手机通信记录中与联系人的通信频次、网上购物送货人记录、线上支付转账收款人记录等维度,进行很大比例上的自动判断,无需每个联系人都一一电话照会,通过交叉问题试探真实性。客户家庭住址、工作地址等信息的真实性,也可以此类数据作为辅助判断的依据,只有对用数据判断不准的部分客户,才酌情需要人工参与。

另外,将线上消费、支付行为与线下银行卡消费信息相结合,才能越来越全面地衡量现代人的金融需求、还款能力以及还款意愿等,才能制定出更反应“互联网+”时代特征的个人金融风险政策。

非面签服务中身份验证——伪冒身份证对于不要求面签的新兴金融服务业而言,一直是反欺诈中的痛点。骗贷份子通过购买他人身份信息,配以自己的照片伪造假身份证,在不配备二代身份证刷卡器的场合进行欺诈。人脸识别技术可以自动抓取身份证照片中的人像,与公安部档案中的该身份证存档照片进行自动相似度比对,用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来

客户位置真实性风控——自填居住地址和工作地址对于贷款风控而言也是一大痛点。实地调查成本高企,且效率低下,一般只有大额贷款才会用到。对于小微金额,可以采用地址搜索技术获取客户自填居住或工作地址的大致经纬度。

地理信息技术引入与其在使用某些互联网产品时留下的常见位置经纬度相比较,可以得出客户自填居住或工作地址的置信度。

如何利用大数据建立金融风控模型

简单地说,如果数据是原材料的话,建模就相当于厨师的工作。

之前介绍了很多 大数据征信 、互联网技术背景下,能提供到新兴金融服务业做风险识别的大数据。但是要真正用好这些多维度的大数据,还需要风险建模技术,或者更广义一些——机器学习技术。

机器学习技术是指,从历史数据的已知信用好坏客户分类人群中,学习好坏客户的特点和行为模式,并用数据模型表达出来,供实际生产中的新业务,做贷前风险评估和预测。

机器学习建模基于两点假设:

1、历史经验是值得学习的,即历史中发生过、存在过的因果关系,在未来还有相当的借鉴意义和参考价值;

2、历史经验中发生过、存在过的因果关系,是可以用数学模型被主要地描述出来的。

从这一点也可以看出,学习建模有点以史为鉴的意思。如果你不相信历史事件会重复,那就没有建模的必要。但如果你相信历史事件会百分之百的被复制,那么你的模型就一定是错的。

案例展示:

当一个风险模型被正确地做出来以后,就可以达到自动化筛选的效果。假设一批申请人中有好客户3650人,坏客户613人,则初始bad%为16.8%。用模型过滤后分为两组。第一组共1100人直接拒绝,其中好客户745人,坏客户355人,bad%为32.3%,比总体的16.8%几乎翻倍;第二组共3163人,其中好客户2905人,坏客户258人,bad%为8.9%,约为总体的一半。

于是人工风险运营的资源就可以优化配置了:对于接受的第二组,可以用反欺诈、风险运营等人工进一步筛选,需要人工处理的案子减少了1/4;对于拒绝的第一组,可以要求客户补件以重新证明其风险没有那么高,如果风险定价、运营成本上认为不具有经济性,则可以直接拒绝。衡量模型的好坏指标主要有Approval%,Catch%,Hit%以及FPR。

模型的选择会考虑共线性和解释度,确保每一个变量符合业务逻辑,防止出现过度拟合现象。P2P的数据相对信用卡相比不足,通过技术手段去解决,可能导致模型过度拟合,所以需对业务场景、因果性等会进行严格分析论证。由此看来,模型一定会存在一定的误差,模型实际是与概率的博弈。

夸客大学:案例演示大数据风控建模

责任编辑:王培

随意打赏

互联网金融大数据风控大数据风控系统大数据风控
提交建议
微信扫一扫,分享给好友吧。