TurboFinancialGroup首席风险官顾凌云先生
和讯互联网金融消息 在深化金融改革的大背景下,互联网金融已成为十八届三中全会后金融改革的创新点,互联网金融产业也迎来了迅猛发展的春天。面对新的历史机遇,北京共鸣时代科技有限公司、杭州融都科技有限公司、融途网、零壹财经联合举办的“首届互联网金融资产交易峰会”2014年9月15日在北京举行。本次大会,和讯互联网金融作为战略合作媒体将对本次大会进行全程报道。TurboFinancialGroup首席风险官顾凌云先生,出席了会议并在主题演讲中表示,真正的信用评估应该包括传统的数据、可替代的数据、用户网上行为数据、社交网络信息、用户自己回答的信息,要把所有这些信息全部给综合起来才可以。
以下为文字实录:
顾凌云:大家好,我今天的题目是信用评估与大数据。因为我本人自己一直在做机器学习,恰好碰上了这个好时代,就到这个金融领域里面看看有没有合适的应用。大数据这个词最早是没有的,很多人都是从2012年2月份,纽约时报那篇文章开始知道大数据。今天虽然我们讲资产交易,也讲金融,这里可能我要先泼一点冷水,因为到目前为止,在大数据领域当中的投资已经越来越热,而且做得公司越来越多。有多少公司到底真正使用的是大数据?我相信几乎没有太多,让我想到1999年、2000年,我刚到美国的时候目睹了所谓互联网1.0版本破灭的过程,当时我很清楚记得一个例子,有一家冷冻食品的快速公司,做猪肉,把猪肉送到旧金山市区里面,后来过了一段时间想了一下,他叫做互联网猪肉冷冻快递速食公司,这家公司后来就上市了,他用互联网的方式送猪肉了吗?显然没有。只是加了一个单词,就做到了这点。
很多人都问我大数据是个什么东西?我认为有一个例子可以比较好的解释这个现象。我们很多人知道十多年前时候,如果我们用计算机,如果你的这台计算机内存是512兆,你应该是相当不错的土豪。如果你有一个数据,这跟数据恰好是513兆,这个数据用今天的概念来说并不大,但是如果513兆的数据,希望一次弄到512的内存当中不可能,就需要做一系列研究方式方法,把它先拆分、处理,再重新从内存当中拿出来,再整合起来,如果用这样一套方法处理一个513兆相对于512兆内存的数据,就是一个大数据的思维。如果今天把513兆的数据,一次性上传到了亚马逊的AWS,如果通过这样的方式进行运算,你也不是一大数据的方式。
我们先看一下大数据在美国金融当中最直接的场景,就是所谓的信用评估体系。美国的信用评估体系很早,每个人之间都有一点制衡在里面,不敢把事情做得太绝。如果做了以后,不是明天就可以拍拍屁股走路的,一般会记录在案。中国现在也在做,但是还不太成熟,在这个领域中有很多机会。美国的信用体系评估很简单,就几样东西,大家可以看到,首先第一是债务的历史,这个听起来是很正常的,如果你以前曾经有过违约,显然对你今后借款能力有质疑的。第二是债务,你总共欠了多少钱,这个也很重要,如果你即使告诉我你是比尔盖茨,但如果今天你借的钱已经超过了600亿,也超过了你的偿还能力,也是个问题。第三点信用历史时间,如果你是在10年之前就有过一张信用卡,或者是相比另外一个人到今年才有第一张新的信用卡,我不能说哪个哪个之间的偿还能力更强,但至少我会知道第一个人有更多的信用数据,这个就是不一样的。第四点是他的很多相关的其他因素都很重要。比如说最近有没有买房,如果买房就有买房信用卡的记录,有没有买车?也有。这些东西全部加起来形成了美国现有的评分体系。
一般来说如果大家在数学相关领域工作的话就会知道,作为一个逻辑回归也好,如果你把它的变量放得太多了,从某种程度上来说,你的这个模型处理起来就会比较麻烦一些。最主要一点它的深度比广度要重要,对于我来说,我可能关心的是你过去20年,如果你有记录,和你从最近一年当中才有记录,二者之间是不一样的。
那么同样,关注用户的历史远远多于现在,也许这个人一开始是个屌丝,最近突然发财了,可能他的偿还能力就会有巨大的改变,但是这样的因素有没有体现在这个里面?很多人不知道。怎么样把纵向和横向广度上的东西都放进来,这个就会显得相对来说比较重要一点。
很多人都说你这个大数据到底在金融当中有什么用处?为什么一讲到这几个理论以后就不怎么管用了?有两块不同的石头,一块石头被做成了一块台阶通向山顶寺庙的路上,同样有另外一块石头被做成了佛像,晚上的时候他们相互之间在探讨和聊天,当做石阶的那块石头,跟做成佛像的石头说,凭什么你当了佛像?我每天被万人踩在脚底下。做成佛像的石头跟他说那不一样,虽然我们都是石头,你只被切过六刀就被做成一块放在脚底下的石头,但是我是受尽磨难之后才成为这样一块佛像的。这是一样的东西。如果你要是切一个人的历史过程,切得太简单,只能切出6刀或者只能切出30刀,用30个变量来衡量一个人,从某种程度上来说很困难。同样一个人在不同的应用和领域当中也不一样。他在同样的一个场景,不同人面前表现出来的情况是千变万化的,他如果今天在这个公司当中呆了20年,不一定说明他是个好员工,很有可能是他没有能力跳槽。如果你用另外一个角度评判这个人的话,你的评判标准和应用变量应该完全改变。但是非常可惜,没有人从这个角度上衡量一个人,所以这后边有很多我想讲到的东西。
美国的大部分人,为什么说美国是个比较稳定的社会?就是因为它的中产阶级比较多,从650分以上的人群绝对占到美国很大一部分,而相对来说属于非常屌丝的人群是不多的。什么样的银行、什么样的金融机构在为不同的这些人群在进行服务呢?你就可以看到,非常明显,如果中间条的颜色,你可以看到这个条的颜色越多,就说明竞争越激烈,越来越鸿海,这是个什么领域?这个领域就是信用分数大于650分的领域。括美国四大国有银行,都是主要信用卡的提供商,好处就是说你可以从他们当中赚到交易费用,但是这帮人你是别指望给你分期付款的,包括我在内每个月用的所有花费都会在当月还掉。我不会让银行赚到这个钱的。竞争变得越来越激烈,这些人信用比较好,基本上拍下脑袋就可以决定把金融产品给他的。风险比较低,所以当然对应的收益就不会特别大。小于550分的时候,就没有什么企业在里面竞争了,用什么样的方式才能解决这些领域当中被服务的人呢?用大数据经过千锤百炼的方式,你有千万个变量来通过这种方式进行建模,来判断这些人的信用到底能不能被纳入到正常的体系当中去,这就是我们做得事情。
我想说一下为什么最终会把风控放到一个这么重要的角度上来。在我看来今天互联网金融确实是一个非常热的热点,因为我本人不但自己做一家企业,同时还投资其他的企业。可以看到互联网金融当中至少有四个这样的热点,第一个就是今天的P2P,美国的P2P最大的只有两家,但在中国一个月之前我收到的报告,就已经超过了2000多家,中国人跟美国人做事情的方式完全不一样。我仅指P2P所谓的叫做债权的众筹,而不是股权的众筹;第二就是所谓的大数据;第三个虚拟货币。这几个都是相对来说比较有特点的地方。你可以看到,所有的这些热点,尤其是P2P,我可以非常直接的说,今天中国到今天为止,也许9月15号的时候,P2P还有2000多家,我可以很负责的告诉你,6个月或者一年之后,P2P如果能剩下四分之一都是一个奇迹,很多P2P公司一定会死掉,或者被并购掉。在所有的热潮慢慢退去的时候,在大浪慢慢退回海岸线的时候,到底谁会留下来,我们看得很清楚。剩下的我该做什么?这个时候风控就会放到最显著的地位上来。到地方银行江苏银行、南京银行(601009,股吧),他们越来越多的希望关注如何把风控的东西放到一个越来越重要的地位上去。
我们可以看到,如果现在有两个人需要借钱,当然这两个人都比较有名声,如果是司马懿今天要借钱,大家可以看看今天把的条件是什么样?不错跟曹操混了那么多年,日子过得也不错。拥有过许20年的信用历史,而且这个官级从养马的开始一点点升上来,所以信用值也不错,最近新的贷款查询没有,日子都过那么好了,还需要借钱吗?可能也不需要了。而且贷款类型相对来说也非常丰富,才能盖房子借过钱、买马车借过钱,如果从美国典型的风控角度来说,司马懿绝对应该借钱的。诸葛亮日子过得没那么好,帮刘备把这块地给搞下了,但是毕竟蜀国财政没有那么好,收入只有3000块钱,过去24个月还违约过一次,只有7年的信用历史,最近还老是借钱,借过3次,贷款类型也不丰富,借过钱买过马车,二者之间进行比较,毫无疑问大家都会选择把钱借给司马懿,而不借给诸葛亮,但是这是个典型的传统的风控模型。看重过去历史,而不看重现在。
我们看看下一页,就会看到两个人不同的变化。司马懿也会上网了,但是这个人上网的地址频繁多变,总而言之就没有在他自己的办公室或者家里出现过,他给我一个很大的警示,是不是最近司马懿开始有可能失业了?他刚刚申请了两个发薪日贷款,借的款,还的也快。我们通过一种方式找到,他最近刚刚借了两个发薪日贷款,虽然以前借过学生贷款不管用,所以即使他想违约,都没有这个条件违约。他最近老是在许昌、洛阳、长安,这些所谓的大城市来回在走动,好像没有一直呆在魏国的国都,这说明最近他可能有些频繁的军事行动。
诸葛亮之所以违约一次,原因是因为他被马车撞了,医疗费太高,当然因为医保体系又不完善,所以必须要诸葛亮自己垫钱,所以日子混得不太好,付了很多钱。为什么信用值只有7年时间?因为他刚刚从南洋搬到成都,所以信用值只有7年时间,当然没有司马懿长。而且最近5年从来没搬过地方,可见生活职业都是相当稳定的,无论是刘备,还是他儿子对他都是不错的。他为什么没有申请过学生贷款呢?因为学生的时候,他是优质学生,他拿奖学金,所以当然就没有借过学生贷款,把所有这些信息全部综合起来以后,就会发现大数据给我们带来的是一个更全面的全景的描述,在大数据的场景当中,如果有一个合适的建模的方式,能够产生一个二维决策,那么你就可以看到,最终借款的人应该是借给诸葛亮,而不应该是借给司马懿,这相对来说是比较故事性的例子。但实际上你在现实生活当中,你会看到很多类似这样的例子出现。
真正的信用评估应该是这样的,你应该看到传统的占很大一部分,但是可替代的数据商是另外一种,同时在网上体现出来的用户行为是另外一部分,社交网络的信息也是一部分,来自用户自己的回答和信息是另外一部分,要把所有这些信息全部给综合起来才可以。所以大家可以看到,在2.0版本当中的成员介绍是这个样子,在传统数据当中,我们只看到了深度没看到广度,现在更多是广度上面想看一看。网络上的数据也是很重要的,我们可以通过你IP地址直接从什么地方访问来判断你大概来自于什么样的区域,当然有可能你的IP地址是经过IP地址的服务供应商改变过以后的,这样的人群有另外的方法来追踪,他到底真正来自于什么地方。同样你上网的时候,你使用的电脑类型,你用得苹果还是PC,这直接导致两个完全不同的消费类人群。你上网的时候浏览器版本用得是什么?如果你能通过合适的方法把它给结构化,这也非常重要。
直接征询用户的答案也是很重要的,有的人说问用户有什么用?尤其一个没有诚信的社会。你可以在一个地方撒谎,你可以在两个地方撒谎,但是如果我大数据采了千千万万的点,很难把千千万万的点在互相不矛盾的情况之下,把它给伪装起来,如果真的能伪装成这样,那就不是一个欺骗的过程,所以很难通过大数据的方法让一个人还能够完全的编造一个不被识破的谎言,很难。
大数据模型理念,一切数据皆为信用数据。积少成多、汇流成海。我们刚才讲的所有的那些关键的这些变量,如果单独知道提出来一个,你对一个人进行判断,那一定是50.1对49.9,没有太大的用处能够判断出来这个人怎么样,但是如果把所有的这些细小的因素全部结合在一起,冰冻三尺就会发现最后信用的指相同是非常强的指向,可以很准确的判断出来这个人到底在做什么。我们只看关联不看因果,这是一个非常重要的观点。在此之前做统计也好,做因果系统的时候,总是希望能找到原因判断这些事情到底是不是靠谱。但是在大数据的情况之下,更多的我们认为现在暂时不知道背后的原因,而并不是因为不知道原因等同它不靠谱。同样名字听起来很好,机器学习,咱们都会深刻的体会到,实际上是我们悲催的学习机器,根本不是机器在学习我们。如何能够更好的跟机器进行互相沟通,我们给他一个方法,或者给他一个事实,他能够更快的从当中提取出来,更多的是一种互动。
超级杯的这个例子,我本人在美国比较喜欢看美式橄榄球,一个是AFC,还有一个NFC,每个联盟的冠军会在最后的所谓的超级杯的决赛当中决出当中MFR的最终的总冠军。超级杯指标的意思就是说,如果我看到今年总冠军的冠军来自于AFC,而不来自于NFC,明年美国股市应该是跌的,相反应该是涨的。理论上来说二者之间没有任何关系,如果真的这样,美国绝对是世界上永远的第一强国,但是这是不可能的。二者之间真的一点关系没有吗?我们仔细查过还真不是。因为AFC和NFC理论上来说,应该是平均分布在美国东西南北州各个地方的,NFC和AFC两个联盟之间队伍,在美国经济发达和欠发达地区之间并不是均衡分布,所有的球队在球员购买,包括训练方面,他投入的资金也是不一样的,所以从某种程度上当经济在起飞过程当中的时候,NFC很多球队最早会受益的,NFC拿冠军导致经济好有这个情况。
大数据的模型之二,我们认为是数据的来源。这里更多的要讲一下错误信息也是信息,比方设计这些网站的时候会问,你这个每个月工资是多少?因为到我们这里来申请的基本上屌丝比较多,他就会说每个月两千美金,或者三千美金,但是经常会看到有些人说我每个月的工资36000美金,你确定这是你一个月的工资,不是你一年的工资?他可以很简单把36000除以12,我一个月是准3000块钱。我们有意不这样说,因为我们认为即使这样的错误信息也体现了一个人的素质。
第三点就是所谓的建模,总而言之,大数据当中对所谓特征的变化,特征的提取和最后所谓独立模型细节的建立,最后模型的整合都跟以前传统统计上的理论有很大的区别。
最后这个是比较有意思的事情,这件事情在中国基本上不存在,但是在美国相对比较麻烦,大数据和相关立法之间的关系。相信中国在今后立法越来越完善也会碰到这样的问题,信用评估上有些禁区,这些禁区不能碰的。第一性别绝对不可以用的,来决定这个人到底信用值怎么样,这是绝对不可以的。第二年龄,年龄没有性别那么严重,但是年龄有要求,你问这个人的年龄,只能作为一个加分因素,而不能作为减分因素,年龄大家现在很多人也是不用的。第三种族,绝对不能触碰的红线,绝对不能根据你是亚洲人、黑人、白人还是拉丁裔,判定你的信用是好是坏。比如在中国你在街上开车或者在美国,墙上写着字告诉你这个地方不能原地掉头,就是因为太多人在这个地方原地掉头了,所以才会树个牌子,如果这个地方窄,你不用写,也不会有人原地掉头。禁止使用的这些东西,其实真正最能体现一个人的本质。实际上从我们模型当中能看得出来,这些不准用的东西,如果你用的话,比千千万万的信息加在一起都有用。
大数据另外一个比较奇怪的应用,就是它可以帮助你绕过一些法律上的红线,这些法律上的红线绕过并不是我们在打法律的擦边球,而是因为事物的本质就是由这几个因素来决定的,这几个因素你不让我用,但是其他的模型又能准确的判断这个人,必然导致背后可以有的这些因素,A可以突出C,B又可以突出C,A和B之间必然有相关的。