联邦学习重构大数据风控范式
一个最暴利的行业走向灭亡,它就是现金贷。以前,现金贷的核心是风控与催收,风控的命门是数据。现在,谈之色变。信贷本没有错,错在这个发展过程中变味了,变得像过街老鼠。信贷行业如何给自己洗心革面,这需要从信贷风控说起。
一个最暴利的行业走向灭亡,它就是现金贷。
以前,现金贷的核心是风控与催收,风控的命门是数据。现在,谈之色变。信贷本没有错,错在这个发展过程中变味了,变得像过街老鼠。信贷行业如何给自己洗心革面,这需要从信贷风控说起。
风控的本质是数据
支撑风控的大数据市场发生了变化,这个变化似乎是不可逆的,所谓风雨之后见彩虹。过去很长时间,放贷的场景是这样子的(这也是美国流入中国的所谓的Fintech模式、零售模式、小贷模式、发薪贷模式……):
某放贷机构在新闻浏览器投放一支广告——“……只要身份证就能领取8000元急用金……”,小明因为急用钱点击进入,注册领取,这个过程非常简易,包括注册、下载APP、填写信息与绑卡、申请等待、授信通过领款等几个线上操作。
机构是如何对借款用户进行风控呢?上一辈人肯定无法理解,因为他们获得贷款都需要抵押或者担保。互联网金融强调零售业务的效率,这个风控过程被完全搬到了互联网这个虚拟空间。风控的命门变成了数据,从小明注册开始,这一系列的动作,都被放贷机构掌握了他的数据。
放贷机构获得了小明的姓名、身份证、手机号等要素,获得了手机APP底层的行为数据,获得了银行卡信息数据,通过用户ID信息,风控引擎会自动去第三方数据查询更多的标签,比如是否在其他借贷平台有过借款、有过逾期,是否是信贷黑名单,是否经常浏览博彩类网站,填写的家庭地址是否是一个伪造的地址,甚至是小明的通讯录和联系人是否有老赖或者贷款中介……
打一个比喻,一旦申请网贷,借款人相当于被脱光了放在橱窗里,供人审阅!
缺人文道德的金融科技走不远
不傻的人都能看明白,这个所谓的“科技赋能”在过去的互联网信贷模式一定是罪孽的帮凶。心地善良的我们,本应该享受这种快捷的方式借到自己急需的钱,享受科技带来的普惠,却变成了被完全监控、骚扰。你的信息变成暴利商的无成本交易品,你的手机号被无数次倒卖,你一天可能接到十个营销电话、二十条营销短信。这一切都会让本来安安静静的生活变得无序、变得可怕。
金融无奸不商,股市吸血、贷款要命。互金这些年,因为缺乏完整的监管体系,所有的传统金融都试图加持所谓金融科技,大张旗鼓。在科技赋能的过程,脱离了社会人文本质,更严重的是脱离了道德与伦理。这话并不严重,可能是古代的人太笨,不懂得说你脱了拍点裸照就可以得到贷款,这已经是上升到社会道德层面的问题了。
我很想说,缺人文道德的金融科技走不远,也必须不可以走远。缺人文道德,我们美丽文明的国度会失去原本的美好,人心惶惶、胆战心惊,那种生活在新科技时代的不安,会让我们看身边所有事物都感觉是一个陷阱。
金融科技要健康,首先解决隐私问题
过去大多数金融科技案件,都因用户隐私问题引发。非法采集数据、非法贩卖数据的归因其实还是数据行业生态的不完善性,让一大部分奸商有机可乘。金融科技从业者都有这样的感觉,自去年开始,似乎所有的业务都停滞了。迫于法律法规的约束与要求,风控变得一数难求。
金融科技是绝对依赖用户数据的——精准营销要达到精准,必须使用个人用户数据,比如一个做信用卡推广的银行,如果闭着眼睛去投放信息流或者发短信,roi如果能达到0.3已是万幸。一般的渠道都会进行用户刻画,比如采购消费标签等,甚至是运营商的DPI数据(近期是否浏览过办信用卡的页面),这样的经验标签或者浏览日志可能可以让roi提高到1以上。
风控评分要达到效果,更须依赖于个人用户数据,比如一个银行做个人贷款,如果只用央行征信数据,很有可能借款人不在其中,即使在其中但是数据维度单一。高效的方式是采购第三方的信用数据进行评估,比如某嘛分(当然今天已经不直接输出)、运营商的话费信息、手机设备SDK厂商的APP安装和使用信息、地图厂商的LBS位置数据等等,通过多维度的数据进行联合建模,最终得到借款人的信用评估值。
这些金融业务本质上不是想“买卖”用户数据,作为业务甲乙方本质上只期望得到数据背后的知识和价值。所以,金融科技本没有错,错的是金融科技过程留下的祸根很深。金融科技要正名自己,必须解决科赋能过程中对用户数据隐私的绝对保护和安全。
数据应用范式必须重构
解决用户隐私问题,我们曾经熟悉的API调用与建模方式存在着千疮百孔的漏洞——保险公司去查数据源,保险客户ID就被缓存、被恶意再营销、被迫流失;银行要对信用卡建模,就必须把Y样本(信用卡逾期表现)给到数据源,或者数据源把标签库完整地放到银行端,用户数据的大批量迁移出库往往引起恶劣后果。
风控是支撑金融业务的核心,要持续健康地运转,必须重构数据应用的范式——数据厂商与金融机构用安全计算的方式合作数据,用人工智能保证数据的绝对安全。一个简单的安全计算(举例联邦学习)为例:
Role A表示银行端,Role B表示数据源,用联邦学习的方式使用数据进行联合建模,整个过程数据本身只在本地私域进行计算,过程中交互的是加密的模型参数,最终得到加密的分布式模型。