36氪专访人人贷顾崇伦（下）：为什么说互联网信贷的大数据梦，离现实还很遥远？

36氪 • 11年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

在对人人贷COO顾崇伦的上一篇专访中，我们着重讨论了该公司的模式选择问题。站在我个人角度，之前对于人人贷的一些困惑——包括“暗箱”与透明，线上还是线下等问题——多多少少得到了解答。今天这篇专访是对上一篇的承接，关注焦点由人人贷放大到P2P行业，目标仍然是为外界解答我们此前对于这个行业的一些疑惑和误解，比如关于国内外P2P的本质差别，以及技术的能力界限等。

以下进入正文，词句有所修改：

一、互联网信贷不“互联网”，源于外部数据电子化和整合程度不够高

这个其实已经是业界共识，中国的征信体系欠发达，而且开放程度有限（比如只有银行和当事人才能调用征信报告），导致一些P2P要么模式比较重，要么干脆是轻审核的状态。虽然国家层面有一些数据库（包括央行和其他机关），政府也在推动信用数据的整合和开放，但没走到这一步的时候，基本只能依靠企业自主整合来实现。

站在企业自主整合的角度，目前可以有学历、工商、第三方征信等开放数据，在用户授权下，也可以拿到电商、社交等私密数据。比较理想情况下，借款用户只需提交一个身份属性，平台即可以获取完整的数据拼图。而当你做不到的时候，只能让用户自己填写上传资料，此时会涉及到一个数据校验的问题。

目前国内做P2P的逻辑是这样：先考虑用户的数据拼图里需要哪些资料，能够电子化获取的就电子化，不能做到的，就让用户自主上传，然后通过其他线上或线下手段验证——P2P的互联网化，会是一个逐步演进的过程。

二、征信是P2P的核心，大的玩家都会往这个方向走

很多P2P企业，包括人人贷和陆金所，其实都想往征信的这个方向去走。大家想做征信，很大程度上也是因为自己链条里缺失这一环。如果国家先做了，民间当然不用自己做，但就现状而言，更多还需要民间去推动这一进程。

一般来说，真正的互联网信贷需要先搜集数据，然后做数据验证，之后再根据历史坏账、交易记录做审核模型。这个模型，简单说有一些评分法，复杂一点的会做数据挖掘。 目前包括人人贷在内，各家在这一点上做得其实并没那么好。 在数据获取都比较困难的前提下，各种模型也只能不断尝试和研究。但即便如此，一些公司和机构的在数据整合上还是会走得很快。民间走得快，国家也会跟进得快一些。国家想要将民间的一些动作规范起来，这就要求国家在数据整合和开放上的行动更加迅速。随着P2P的受监管地位被明确下来，相信得到认证的P2P非常有可能拿到央行征信接口。

三、国外P2P和国内P2P，关键差异在于是否提供保障机制

在顾崇伦看来，国外的P2P模式其实跟国内不那么可比。 但是否提供保障机制，是两者的一个关键差异。

Lending Club在对借款人评级的时候，能拿出一个相对公允的评级标准（FICO），这是公众比较认同的。国外公众长期受到信用教育，明白不同信用数值的意义，认同不同信用得分借不同金钱的观念。这样用户可以自担风险，平台审核工作可以变得很轻，这才能做成比较纯粹的交易所模式。

但国内情况是缺少这么一套公认的评级标准。平台自己去做评级，用户不知道你给出的信用等级是什么意思，因此才衍生出了本息保障一类的东西，这是历史演变的结果。理论上，本息保障、承诺收益都是不应该存在的，整个金融行业都不能做收益承诺。但现实来看，中国几乎没有一家P2P不提供某种形式的担保。即便是一些声称不参与风险的类Lending Club模式的P2P，也在用户投资标的分散的前提下提供“有限保障”。

平台不提供保障，用户不知道凭什么做出投资决策。而且如果平台只盯着交易量，不管风控，也会衍生出道德风险。 风险谁来管，保障就由谁来做，风控者的身份应该和保障者合一 ——不管是自己担保，还是由第三方做保险担保的模式，其实都是这个逻辑。

【重点】四、互联网信贷，最核心的还是结构化数据，大数据的作用十分有限

在人人贷看来，非结构化数据对互联网信贷更多的起到辅助作用，这一点长期可能也不会变。顾崇伦表示，国外的信用评估模型发展了这么多年，至今还是主要依靠借款人的收入、借款历史、联系方式和居住地稳定性等传统金融数据做评估，恰恰说明了这些结构化数据的核心地位。

而对于一些非结构化数据，比如社交大数据，因为其缺少明确定义、不规整的特性，只能去做一些主动性的挖掘和探索。 如果你做的是结构化数据，比如10个变量对应1个结果，可以通过一些数据挖掘算法找到不同变量对结果的影响权重及其是否显著有效等，结构化数据是可挖掘的。但如果是非结构化的数据，比如社交应用中的文字，你很难直接使用并且找到它对结果的影响，这样的数据价值就比较低。

面对这些大数据，挖掘者不知道什么东西对自己有用，只能去猜测条件和结果之间的关联，验证关联性后，才能把它当做一条规则来用。比如针对借款人，虽然你可以在他的搜索行为（比如有无检索过“信用卡套现”这类关键词）和逾期率之间做挖掘，但事实上，这里对数据的运用还是基于人的思考。人先想到，再用数据验证，然后才成为实施方案——这样的东西是很难反向挖掘的。

[ 36氪原创文章，作者: 沈超]