金可冶:智能风控建模中最常见的四个问题

亿欧网  •  扫码分享
金可冶:智能风控建模中最常见的四个问题

近日,捷越联合CRO金可冶,结合自己在美国运通和汇丰任高级副总裁时的经验,在一本Live做了名为“ 智能风控建模 的难点和关键点”的主题分享。

本文是分享的节选。

和大家分享一下我经常被问到的几个问题,它们代表着风控建模中样本选择与基本定义的一些痛点。

1 选取建模样本需要考虑哪些因素?

关于这个问题,需要先强调建模非常重要的一条基本原则 ,它很简单,但被很多人忽略了。这个基本原则是什么呢? 模型只适用于建模样本所能有效代表的群体。

举一个简单的例子,我们为20-30岁的年轻人设计一个健身程序,比如每天要跑多少步、做多少俯卧撑、在健身房健身多久等等。设计完后你觉得很有用,但如果把它运用到40-50岁的群体,这个模型可能效果会很差或完全不适用。

那什么叫有效的代表群体呢?

确定有效的代表群体有很多维度, 比如说从产品的角度:这个模型是建立在信用卡的客群上, 消费贷 的客群上,还是建立在一个循环贷的客群上?每一个客群是有代表性的

渠道也是要考虑的因素:客户的来源是线上还是线下?如果来自线上,那是自然流量、贷款超市,还是其他的导流渠道? 这些都对建模至关重要。

还有一个维度就是 风控政策 。 风控政策如果进行大的调整,也会对模型的应用产生很大影响。比如说建模是在一套样本上,当时的风控政策相对宽松;建模之后你要把它运用到一个客群,如果这时风控政策相对严谨,模型的效果就会受到影响。

另外,客户的年龄、性别、职业、地域,是新用户还是老客户,这些客户属性,对建模的过程和运用都有很大的影响

金可冶:智能风控建模中最常见的四个问题

因此,在选择有效的代表群体时,需要综合考虑产品、渠道、风控政策、客户属性等多重要素。

此外,要考虑到数据的可获得性,即在目标样本时间期间,建模数据是否能拿到。很多人会用运营商数据,比如说选择一个样本12个月的表现期,那在关键点之前,能不能拿到运营商的数据?如果拿不到这些数据,实际上就没有数据可用。这也是要考虑的一个现实因素。

同时,也要考虑大环境变化,比如说在观察期、在样本期,有没有大的风控政策变化。比如去年年底现金贷监管政策出台。在此之前建的模型,之后再用,肯定会有不适合的地方。

2 如何定义好坏?

如何定义风控样本中的好坏,概念是相对的。比如逾期一期就是“坏”,还是到坏账和核销的阶段才是“坏”?

比较常用的方法是看滚动率:第一期逾期后,有多少会滚动到第二期;第二期又有多少会滚动到第三期。如果滚动率非常高,第一期到第二期滚动率已经到了80%以上,那到了第二期,基本上肯定会滚到第三期,或者有更高的逾期,直到核销。所以说,一般到第二期就可以肯定是不是坏客户了。这样可以把“坏”定义为两期逾期,就是通常我们所说的60天逾期。

此外,有些样本不太好也不太坏,也要考虑到。比如一期逾期,可以把他从样本中剔除,既不定义为好,也不定义为坏,这样对建模的有效性会有所帮助。

3 建模的样本通常有多大?

这没有统一的说法,要根据客观的情况而定。通常要几千条、几万条。

而更重要的问题是:建模中需要有多少“Bad”? 你要通过模型预测客户得逾期、坏行为,如果坏的客户数量不够,模型中的信息量和价值也是不够的,很难预测坏的行为。

金可冶:智能风控建模中最常见的四个问题

所以我们更注重建模样本有多少坏的样本 。当然,坏样本通常意义上越多越好,但多的话也是有成本的,大家要把握这个尺度。一定要把握最低的尺度,即坏样本不能少于多少。

4 表现期的长短

定义表现期的长短,要从几个方面来看,第一个是预测的行为,预测的是新账户的风险、存量账户的风险,还是信用卡每笔交易的风险。这些都会对表现期的长短要求不同。

另外也要看预测的行为是信用风险,还是欺诈风险,这也会对表现期的长短有不同要求。信用风险要比较长的时间才会爆发,而欺诈风险会很快爆发出来。

需要强调的是,表现期一定要足够长,才能充分地把风险暴露出来。比如说新的客户通常要12-18个月观察期,风险才能爆发出来。而信用卡的交易风险,刷卡一个多月后就会表现出来,因为一个月后就需要还款。所以预测不同行为,对表现期的要求也不同。

第二个是观察数据的可溯性,就是数据能回溯多久。 当然,回溯期越长,它能体现的风险可能性越大。但如果回溯期太长的话,拿不到数据,其实也没有用。

最后要说一下大的环境的变化。 监管环境、竞争环境、产品变化、风控政策,对表现期都有一定的影响。

总而言之,表现期的长短要根据种种因素来判断,针对具体业务、场景、客群等,取一个合适的表现期,才能达到最佳的建模效果。

随意打赏

提交建议
微信扫一扫,分享给好友吧。