金可冶：智能风控建模中最常见的四个问题

亿欧网 • 5年前扫码分享

近日，捷越联合CRO金可冶，结合自己在美国运通和汇丰任高级副总裁时的经验，在一本Live做了名为“ 智能风控建模的难点和关键点”的主题分享。

本文是分享的节选。

和大家分享一下我经常被问到的几个问题，它们代表着风控建模中样本选择与基本定义的一些痛点。

1 选取建模样本需要考虑哪些因素？

关于这个问题，需要先强调建模非常重要的一条基本原则 ，它很简单，但被很多人忽略了。这个基本原则是什么呢？ 模型只适用于建模样本所能有效代表的群体。

举一个简单的例子，我们为20-30岁的年轻人设计一个健身程序，比如每天要跑多少步、做多少俯卧撑、在健身房健身多久等等。设计完后你觉得很有用，但如果把它运用到40-50岁的群体，这个模型可能效果会很差或完全不适用。

那什么叫有效的代表群体呢？

确定有效的代表群体有很多维度， 比如说从产品的角度：这个模型是建立在信用卡的客群上，消费贷的客群上，还是建立在一个循环贷的客群上？每一个客群是有代表性的 。

渠道也是要考虑的因素：客户的来源是线上还是线下？如果来自线上，那是自然流量、贷款超市，还是其他的导流渠道？ 这些都对建模至关重要。

还有一个维度就是风控政策。 风控政策如果进行大的调整，也会对模型的应用产生很大影响。比如说建模是在一套样本上，当时的风控政策相对宽松；建模之后你要把它运用到一个客群，如果这时风控政策相对严谨，模型的效果就会受到影响。

另外，客户的年龄、性别、职业、地域，是新用户还是老客户，这些客户属性，对建模的过程和运用都有很大的影响 。

金可冶：智能风控建模中最常见的四个问题

因此，在选择有效的代表群体时，需要综合考虑产品、渠道、风控政策、客户属性等多重要素。

此外，要考虑到数据的可获得性，即在目标样本时间期间，建模数据是否能拿到。很多人会用运营商数据，比如说选择一个样本12个月的表现期，那在关键点之前，能不能拿到运营商的数据？如果拿不到这些数据，实际上就没有数据可用。这也是要考虑的一个现实因素。

同时，也要考虑大环境变化，比如说在观察期、在样本期，有没有大的风控政策变化。比如去年年底现金贷监管政策出台。在此之前建的模型，之后再用，肯定会有不适合的地方。

2 如何定义好坏？

如何定义风控样本中的好坏，概念是相对的。比如逾期一期就是“坏”，还是到坏账和核销的阶段才是“坏”？

比较常用的方法是看滚动率：第一期逾期后，有多少会滚动到第二期；第二期又有多少会滚动到第三期。如果滚动率非常高，第一期到第二期滚动率已经到了80%以上，那到了第二期，基本上肯定会滚到第三期，或者有更高的逾期，直到核销。所以说，一般到第二期就可以肯定是不是坏客户了。这样可以把“坏”定义为两期逾期，就是通常我们所说的60天逾期。

此外，有些样本不太好也不太坏，也要考虑到。比如一期逾期，可以把他从样本中剔除，既不定义为好，也不定义为坏，这样对建模的有效性会有所帮助。

3 建模的样本通常有多大？

这没有统一的说法，要根据客观的情况而定。通常要几千条、几万条。

而更重要的问题是：建模中需要有多少“Bad”？ 你要通过模型预测客户得逾期、坏行为，如果坏的客户数量不够，模型中的信息量和价值也是不够的，很难预测坏的行为。

金可冶：智能风控建模中最常见的四个问题

所以我们更注重建模样本有多少坏的样本 。当然，坏样本通常意义上越多越好，但多的话也是有成本的，大家要把握这个尺度。一定要把握最低的尺度，即坏样本不能少于多少。

4 表现期的长短

定义表现期的长短，要从几个方面来看，第一个是预测的行为，预测的是新账户的风险、存量账户的风险，还是信用卡每笔交易的风险。这些都会对表现期的长短要求不同。

另外也要看预测的行为是信用风险，还是欺诈风险，这也会对表现期的长短有不同要求。信用风险要比较长的时间才会爆发，而欺诈风险会很快爆发出来。

需要强调的是，表现期一定要足够长，才能充分地把风险暴露出来。比如说新的客户通常要12-18个月观察期，风险才能爆发出来。而信用卡的交易风险，刷卡一个多月后就会表现出来，因为一个月后就需要还款。所以预测不同行为，对表现期的要求也不同。

第二个是观察数据的可溯性，就是数据能回溯多久。 当然，回溯期越长，它能体现的风险可能性越大。但如果回溯期太长的话，拿不到数据，其实也没有用。

最后要说一下大的环境的变化。 监管环境、竞争环境、产品变化、风控政策，对表现期都有一定的影响。

总而言之，表现期的长短要根据种种因素来判断，针对具体业务、场景、客群等，取一个合适的表现期，才能达到最佳的建模效果。