征信市场的新格局和“是与非”

发布日期：2015-12-14 | 点击数：922次

长久以来，我国征信市场都是以央行为主导的单一格局。央行征信系统主要收集以银行信贷信息为核心的企业和个人信息，截至2015年4月底，该系统收录自然人8.6亿，其中有信贷记录的3亿人，收录企业及其他组织近2068万户。

所以，不管是在用户的覆盖面还是数据的多样性上，央行征信系统都有很大的局限性。如何满足其他没有征信记录的5亿多人的金融需求?这便是大数据征信所觊觎的市场机会。

传统信用评估模型是根据一个人的借贷历史和还款表现，通过逻辑回归的方式来判断这个人的信用情况。而大数据征信的数据源则十分广泛，包括电子商务、社交网络和搜索行为等都产生了大量的数据。
这些数据在信用评估中的效用究竟如何?大数据征信是言过其实，还是真的风控神器?群雄逐鹿征信市场，谁能成为最后的赢家?从金融服务到生活服务，中国的个人征信机构究竟有何“野心”?

带着以上问题，《第一财经日报》于近日专访了芝麻信用的总经理胡滔、腾讯征信总经理吴丹、FICO中国区总裁陈建、京东金融消费金融总监许凌、芝麻信用首席科学家俞吴杰、美国Zest Finance前模型组创始人顾凌云等。

解码大数据征信（一）：征信市场新格局

个人征信牌照的发放久拖未决，但最近流出一份央行发放给各地营业部的《征信机构监管指引》(下称《指引》)。业内普遍认为，该文件的制定应该是个人征信牌照的下发铺路。

根据《指引》，监管部门对于涉足征信业务的机构提出了多项具体要求，包括个人征信机构设定保证金制度、股权变革的制度化管理等，以规范个人征信这个新兴行业的发展。

值得注意的是，该《指引》的适用机构不只是正在申请牌照的个人征信公司，还包括依法设立的经营企业征信业务的公司，以及金融信用信息基础数据库运行机构。

尽管个人征信市场在国内的市场化发展刚刚起步，但参与者已有不少。

除了首批八家申请征信牌照的机构外，以拍拍贷、积木盒子为代表的P2P平台，以京东金融、宜信为代表的互联网金融公司，以FICO为代表的第三方机构均开始利用既有的数据和技术布局大数据征信业务。

征信市场新格局

今年1月5日，央行下发《关于做好个人征信业务准备工作的通知》，个人征信业务正式“开闸”。腾讯征信、芝麻信用、深圳前海征信、鹏元征信、中诚信征信、中智诚征信、考拉征信、北京华道征信获准开展个人征信业务准备工作。

其中，背靠蚂蚁金服的芝麻信用和腾讯旗下的腾讯征信因其用户覆盖面广、数据规模庞大、技术实力雄厚而最具竞争力。另外，前海征信因背靠综合金融集团——中国平安也被视为有力的竞争者。

此外，考拉征信则汇集了拉卡拉平台上进行信用卡还款、转账、公共缴费等个人用户数据。华道征信的数据则主要来自其两家股东：新奥资本握有大量的居民燃气数据;银之杰旗下的亿美软通是中国三大电信运营商资深的战略合作伙伴。

而另外三家机构中，中诚信征信和鹏元征信的大股东均是老牌的企业征信公司，以企业信用评级业务起家。中智诚征信是民营第三方征信公司，以“反欺诈”业务为主。

其实，除了上述八家首批获准开展个人征信业务的机构外，不少拥有海量数据和技术基础的公司都在暗暗布局大数据征信市场。另据媒体报道，包括京东金融、百度金融、小米、宜信等30多家企业均有意申请第二批个人征信牌照。

以京东金融为例，除了盘活集团内的数据资源外，京东还于今年6月宣布投资美国的Zest Finance。这家由Google前副总裁创办的互联网金融公司主要利用机器学习算法和数据技术帮助用户做出更精准的金融风控及营销决策。

据了解，双方宣布成立一家名为JD-Zest Finance Gaia的合资公司，旨在利用Zest Finance在大数据挖掘和处理方面的技术构建京东自己的信用评估体系，目前Zest Finance的技术专家已经到位。

另一家大数据征信市场的有力竞争者——宜信旗下的至诚征信也在今年6月发布一款针对P2P机构、小额信贷机构和银行信贷部门的风控产品，包括信用评分、个人借款数据、个人风险名单数据三块内容。

此外，包括拍拍贷、积木盒子在内的P2P借贷机构也利用过去几年所积累的数据建立自己的信用评估体系。以拍拍贷为例，它于年初推出了基于大数据的风控模型——“魔镜系统”。

除了那些手握数据资源的公司外，围绕大数据征信领域的第三方技术和服务机构也开始涌现。例如，专注大数据挖掘的“百分点”、在在数据源上层完成数据分析和信用评估的“冰鉴科技”、“闪银”等。

最终仅剩两三家？

但值得注意的是，与其它很多行业不同，征信市场的“容量”却十分有限。

对比美国，1960年代末美国的征信公司曾一度多达2200家，但随着行业不断发展和整合，如今已减少到400家左右。其中，艾可飞(Equifax)、益百利(Experian)和全联(Trans Union)三大巨头便占到了90%的市场份额。

芝麻信用曾在内部提到，当下大数据征信还处于第一阶段，即个人征信机构跑马圈地、百花齐放;而到了第二阶段，征信行业或出现大规模并购，最大的两三家公司将占据市场60%以上份额或者更多，其他几家共享细分市场。

这个预判基本已经成为行业共识。

顾凌云认为，中国的征信市场在三到五年之内不会一统天下，原因是因为到目前为止中国征信市场还处在第一步，也就是数据源整合这一步。但是在今后四五年之后应该会有两到三家成为最终的赢家。
许凌认为，大数据征信需要前期投入巨大的人力、物力，不仅周期长且回报慢。尤其是个人征信这部分，对于数据、资金、技术，以及场景都有很高的要求，最终只会有两三家主导市场。

眼下国内的个人征信市场刚刚放开，还处于群雄逐鹿的阶段。尽管首批仅有八家机构申请牌照，但在业内人士看来，相比牌照，数据和技术才是个人征信领域更为关键的门槛。

平安证券在一份报告中称，根据征信行业的产业链，个人征信公司经营成功的关键在于：数据来源的范围和准确性、数据处理能力、数据产品是否能够满足客户要求、是否具有多样性。

目前来看，除了获得牌照的机构之外，掌握信息搜索和网页浏览数据的百度、整合了电商、金融、生活服务数据的京东、积累了九年数据的互联网金融机构宜信、以及正在积极布局中国大数据征信市场的FICO都是有力的竞争者。

大数据征信的“是与非”

传统信用评估模型是根据一个人的借贷历史和还款表现，通过逻辑回归的方式来判断这个人的信用情况。而大数据征信的数据源则十分广泛，包括电子商务、社交网络和搜索行为等都产生了大量的数据。

大数据征信可以通过我们在互联网上留下的这些“足迹”清晰地描绘出一个人，但如何把控数据源的“量”与“度”，各家机构还在不断尝试。更重要的是，最终绘制出的人物“肖像”与个人信用究竟有多大的关联度，至今仍存有争议。

此前亦有接近监管部门人士对《第一财经日报》记者表示，个人征信牌照迟迟未能落地，其原因之一也在于监管部门对于大数据征信的商业化应用存有疑虑。尤其，以人脸识别为代表的关键技术的可靠性还有待进一步检验。

此外，“另一个更重要的症结在于行政化监管与商业化发展之间的矛盾。”该人士表示，现在个人征信市场的参与者越来越多，远不止申请牌照的八家机构，如果该市场要商业化发展，那么监管方式就要改进。

何为大数据征信?

在FICO中国区总裁陈建看来，征信的本质就是采集和记录信用信息并在整理加工后提供给决策者，而如今，得益于大数据、云计算、人脸识别、深度算法等技术的进步，征信有了更广泛的意义和用途。
“只要对消费者的特征描绘和风险判断有显著作用的就可以叫征信。”陈建认为，现在一切信息皆可以成为信用数据，经过分析后用于证明一个人或企业的信用状况。因为数据覆盖广、维度多，因此形成了广义的征信，也就是大数据征信。

陈建表示，有价值的大数据具备几个因素：第一要覆盖面广，用户足够多，例如银联、电信的数据;第二维度要有效，能够有效转为结构化的数据，例如电商的数据;第三信息要稳定。

不过，对于这种日益崛起的征信新业态，今年7月在上海外滩举办的“2015上海新金融年会”上，央行征信中心副主任王晓蕾直截了当地提出了疑问，“我不知道你们说的‘征信’是什么”?

央行的征信系统是一个“放贷人之间的信息共享数据库”，主要采集的数据为身份信息、信贷信息、非金融负债信息三类，以及部分公共信息。因此，王晓蕾对于征信的基本定义为，“从放贷人那里采集借款人信息”。

而另一个“纠结”的概念在于，王晓蕾认为，放贷机构之“征信”是放贷机构基于内部信息的风险管理过程，而征信行业之“征信”是为放贷机构的风险管理提供外部信息支持的活动，征信机构应该是一个纯粹的独立第三方。

如果按照这个界定，我们现在所谈到的大数据征信跳脱了传统“征信”范畴内。不再局限于金融属性的信息，并且也打破了“采集者与信息产生没有任何关系”的独立第三方原则。

例如芝麻信用、前海征信、腾讯征信，一方面它们的数据来源目前还主要来自母公司阿里、平安、腾讯，而另一方面，它们的兄弟公司又涉足放贷业务，例如阿里小贷。

尽管有关大数据征信的定义和效用仍争议不断，但对于既无法接入央行征信系统又面临快速发展的互联网金融行业而言，利用大数据来帮助判定风险、开拓业务已是必然的选择。

从应用范围来看，目前大数据征信已从金融业务向生活服务蔓延。其中，最核心的两个价值就是：防范欺诈风险和信用风险。简单来说就是：既要证明“你是你”，还要描述出“你是什么样的人”。
如何证明“你是你”?

无论是在传统金融领域，还是互联网金融领域，给客户做信用评估的前提是必须知道这个人就是他自己。所以，如何利用证明“你是你”是大数据征信首先要解决的问题。

尤其，随着越来越多的金融业务互联网化，“反欺诈”面临的挑战也日益增大。“身份认证”的重要性在各项监管文件中反复被强调，而各家机构也在不断探索如何利用新的技术在网上实现身份的核实。

其中，在指纹、虹膜、人脸识别等一系列生物识别技术中，人脸识别因技术的成熟度和准确率较高，以及其使用的便捷性而被进一步普及。包括腾讯征信、芝麻征信在内的多家个人征信机构都有组建自己的人脸识别技术团队。

此前，在腾讯征信的北京媒体沟通会上，为腾讯财付通、微众银行、腾讯征信等提供图像和模式识别技术支持的优图团队也向大家展示了“人脸识别”在“反欺诈”方面的应用，即如何证明“你是你”。

根据现场的演示，在上传身份证照片、自拍照片并与公安部的信息进行比对之后，“人脸识别”的另一关键步骤是活体检测，通过读取随机的数字串，分析声音和唇语等信息来防范有人用视频、照片等方式仿冒用户。

据了解，在今年国际权威的人脸识别数据库LFW上，腾讯优图团队在人脸验证测试中达到了 99.65%的准确率。目前，微信的“人脸识别”技术已经在腾讯征信、微众银行、微证券开户等场景中开始试用。

尽管人脸识别的准确率已经达到较高水平，但该项技术的商业化应用才刚刚起步，它的有效性和安全性仍备受质疑。

优图团队研发总监黄飞跃也表示，该技术现在还不能说100%地成熟，而是适用于某些特定的应用环境中。其中，金融领域的身份核实条件较好，由于用户往往是为了通过验证所以比较配合。

芝麻信用首席科学家俞吴杰表示，整个的反欺诈产品从身份认证到信息验证再到网络关联，每一步的技术含量非常高。以身份认证为例，现在已有很多的途径，比如信息交叉比对、人脸识别技术、KBA问答认证等。

他以网络关联技术为例说明：它能把所有出现过违约行为的身份、手机、设备等关键点都在风险库里面分门别类地保留下来，我们可以通过一层或者多层关联找出所有的风险点供合作伙伴参考，这对技术和硬件要求都非常高。

争议大数据征信

解决了“身份认证”的问题，接下来就要评估你的信用，即描述出“你是什么样的人”。

在关于大数据征信的文章中，我们经常可以看到一些案例，如经常半夜上网的用户可能被认为没有稳定的工作而降低信用评分，买双开门冰箱的用户可能因为有家庭而信用评分较高，微博更新频繁的用户可能因为社交活跃而信用评分较高等。

“这些考量因素被过度放大了，也许这只是用户个人习惯而已。但每一个因素与个人信用的相关性有多大?我们还无法完全解释，尤其当数据源不足够丰富时，这些评判便存在欠缺。”芝麻信用的技术专家景艺亮表示。

冰鉴科技CEO顾凌云在回国前曾领导并开发了Zest Finance前四代风控模型，在他看来，大数据征信的核心并不是对某个变量极其依赖，而是把很多个都只有微小影响的变量通过非线性的算法整合在一起，从而使模型的整体表现更好。

“大数据其实并不一定就是数据量本身大，我们讲求的是变量涵盖的信息维度要多和均衡，然后才是能够通过浅度学习和深度学习等多种复杂的算法把这些变量更有效地糅合在一起。”他表示。

王晓蕾认为，互联网记录了借款人以前不可记录的行为，获得了以前无法获取或获取成本很高的数据，为放贷人了解借款人是谁、有没有还款能力和还款意愿提供了新的渠道和方法。但是，相关的信息究竟如何使用有待进一步研究验证。

王晓蕾引用2014年美国政策与经济研究委员会(PERC)的一项研究结果称，非金融信息在信贷决策中的作用有限。例如，社交信息对于判断借款人的还款意愿和能力暂无预测力。

“诸如水、电、煤、有线电视、手机等非金融信息纳入征信系统，显著地提高了薄信用档案人群的信贷获得能力，但对于厚信用档案人群而言，边际作用不大。”她表示。

“只有好样本，没有坏样本是无法建立有效的信用评估机制的。” 宜信至诚征信的董事总经理赵卉表示，电商、支付、社交等数据只能作为信贷审核的参考值，而贷后数据才是强参数。

对于这种论断，互联网公司们或是不赞同的。

腾讯征信总经理吴丹告诉记者，从这段时间内测的结果来看，在模型中加入社交数据以后，对它的风控能力有20%~25%的提升，尤其在小额贷款领域。因为，通常一笔几百块的借款，违约发生的原因不在于借款人的还款能力而是意愿。

俞吴杰表示，通过大量的研究证明，人的行为数据和他的信用有直接关联，因为行为很难撒谎。从这段时间公测的结果来看，用户的芝麻分越高，其贷款的违约率越低，二者呈单调、线性的关系，这也证明了芝麻分在信用评估上的有效性。

不过，仅仅依靠互联网上的数据并不足以建立一个强大的信用评估体系。显然，所有大数据征信的市场参与者都深知这一点。“在未来，把传统数据和创新数据结合到一起，一定是我们要到达的终点。”芝麻信用的总经理胡滔如此总结到。

顾凌云告诉记者，风控模型本质上还是对一个人金融还贷能力的预测和评估，所以，尽管Zest Finance大量采用非传统的信用数据，但在大部分的风险评估模型中，传统的信用数据(银行信贷数据)依然占有一定的比重，平均也在40%左右。

来源：第一财经日报作者：洪偌馨

【返回】