杨望  >>  正文
杨望:区块链+大数据,传统风控的变革利器
杨望
2019年01月30日

导读

风险控制是金融必不可少的环节。近年以来,为了实现更精准、更高效的风控,金融机构纷纷引进了大数据技术。然而,大数据风控并非十全十美,其尚存数据孤岛、数据低质和数据泄露等有效性不足的问题,由此引发的风险事件层出不穷。区块链技术的应时而生,为两种技术在风控领域的跨界融合带来了创新性的机遇。那么,“区块链+大数据”,能否在金融风险控制领域擦出不一样的火花?

正文

我国的金融体系是信贷主导型,信贷市场规模全球第一。《巴塞尔协议III》的出台,对商业银行等传统金融机构的影响是巨大的。商业银行的业务定位有了全新的变化,不再是简单的金融服务和信用中介,风险控制在商业银行中扮演着更为重要的角色。为了更加直接地防范系统性风险的出现,提高政府在经济活动中的控制力,大数据技术诞生以前,以商业银行为代表的传统风控模式成为最符合国情的风控模式。

大数据风控初步探索在传统风控模式中,大部分商业银行沿用的都是以程控交换为主的风险管理系统,虽然稳定性较强,但是客户容纳体量有限、交易通信指令复杂等不足让商业银行难以满足现代投融资需求,特别是全国7000万中小微企业的存贷款需求,早已突破了传统风控模式的压力测试、欺诈检测和风险监管的系统容量上限。需求促进创新,2008年开始,伴随着数据处理需求的增加和大数据技术的发展,商业银行等传统金融机构日渐意识到数据资产的重要性,并逐步将程控交换系统转换成IP网络为主的大数据风险控制系统。由此,大数据风控逐渐成为金融机构创新传统金融风控模式的变革利器。

另外,日均2EB级别的海量数据的产生,让蚂蚁金服为代表的互联网金融企业和中诚信为代表的征信机构开始在大数据风控领域崭露头角,围绕自身互联网平台和业务系统,打造了诸如“蚂蚁大脑”、“京东天机”的大数据风控系统。然而,2013年以来,随着互联网金融的快速发展,以P2P为代表的互联网金融企业如雨后春笋般涌现。具体而言,自2007年我国诞生第一家P2P平台起,P2P平台在快速发展的同时频频暴露出跑路、停业、提现困难和经侦介入等问题。大部分P2P平台均宣称,自家平台是采用先进的大数据风控技术,严进严出,基本能保障不良贷款率在P2P行业较低的水平。然而,P2P行业的风控现状却总是事与愿违。根据网贷之家发布的《2015年P2P网贷行业年报》显示,2015年全国正常运营的P2P平台总数2595家,累积停业及问题平台数量高达896家,占比34.53%。问题平台总数高达2014年的3.26倍。因此,P2P风控之殇从一个侧面反映出大数据风险控制存在有效性不足等问题。大数据风控美中不足众所周知,大数据风控是指利用大数据技术对交易过程中的海量数据进行量化分析,进而更好地进行风险识别和风险管理。大数据风控的核心原则是小额和分散,即预防资金相关者过度集中。小额的设计原则主要是针对海量数据构成的统计样本,尽量避免出现统计学中的“小样本偏差”。分散的设计原则主要是通过分析借款主体的人口属性、商业属性、行为属性和社交属性等数据来建立大数据风控模型。

基于大数据的风险控制,突破了传统风险控制模式的局限,在利用更充分的数据的同时降低了人为偏差,是金融机构创新传统金融风控模式的变革利器。应用大数据技术不仅可以提高风险控制的效率,还能节约风控过程中的管理成本。然而,大数据风控并不完美。

首先,大数据风控技术无法解决数据孤岛问题,即数据的开放和共享问题。目前,政府、银行、券商、互联网企业和第三方征信公司掌握的信息难以在短时间内互联互通,从而形成一个个信息孤岛。当交易在不同金融机构之间进行时,数据孤岛导致了信息的不对称、不透明,带来了大量的多头债务风险和欺诈风险。金融信贷行业若想利用大数据风控技术提升风控水平,就必须打破数据孤岛,解决信息不对称和信息获取不及时的问题。

其次,数据低质的问题也从一定程度上影响了大数据风控的质量。特别是来源于互联网的半结构化和非结构化数据,其真实性和利用价值很低。举例来说,在美国,Lending club和Facebook曾经合作获取并利用社交数据;在中国,宜信也曾大费周章地采集借款人的社交数据,以期实现对借款人信用的全面评定。但是两者得出的结论如出一辙,由于社交网络中的数据主观随意性很强,这些在网上提取的社交数据根本不具有利用价值或者利用价值十分低,错误率高达50%。电商平台上的交易数据也由于一些刷单现象而失真。这些信息的收集与利用就如同垃圾的运进运出,几乎没有任何意义。基于这些低质数据的风控效果也会大打折扣。

最后,大数据风控过程中存在数据泄漏问题。近年来,数据泄漏风险事件屡见报端。2015年2月12日,汇丰银行大量秘密银行账户文件被曝光,显示其瑞士分支帮助富有客户逃税,隐瞒数百万美元资产,提取难以追踪的现金,并向客户提供如何在本国避税的建议等。这些文件覆盖的时间为2005年至2007年,涉及约3万个账户,这些账户总计持有约1200亿美元资产,堪称史上最大规模银行泄密。Verizon发布的全球调研报告《Data Breach Investigations Report 2015》显示,2015年网络安全事件共有79790起,确认的数据泄露事件超过2000个(2122个)。这些都大大降低了大数据风控的有效性和应用价值。

2008年11月,一位名叫中本聪的技术极客首次提出了区块链概念。区块链本质是一个去中心化的分布式数据库,这种去中心化、开放自治、匿名不可篡改的数据结构特性使其一出现就迅速取得大量关注。区块链的出现,也在一定程度上解决了大数据风控有效性不足的问题。

区块链可解决现实中诸多技术壁垒

区块链诞生于比特币体系中,比特币是一种数字货币,而区块链是记录这种货币发行与交易的“账本”。为了不涉及被信任的第三方,这个“账本”需要保证交易双方能够相互信任,且保证全部交易信息公开透明,自动传达给交易双方。因此,这个“账本”必须是共享、自治和不可随意更改的,要有去中心化、开放自治和匿名、不可篡改的特性。区块链的四大核心技术主要实现了以下特性:分布式记账、分布式传播、分布式存储,保证了系统内的数据存储、交易验证、信息传输全部都是去中心化的;通过“时间戳”〔(区块(完整历史)+链(完全验证)=时间戳”〕来记账,形成了一个不可篡改、不可伪造的数据库;所有权的信任是“算法式信任”,非对称加密算法保障交易数据的可信;实现了可编程的智能合约,使系统可能去处理一些无法预见到的交易模式。

区块链去中心化、开放自治、匿名不可篡改的特性使其应用场景迅速扩张,从最初的数字货币,到证券交易结算、会计审计等涉及合约审核的金融领域,再到政府、医疗等公共领域,区块链技术解决了现实世界中存在的诸多技术壁垒。具体来说,京东白条近两年构建了被称为“四大发明”的大数据模型体系:司南-风险管理模型系统、火药-量化运营模型体系、活字-用户画像模型体系、造纸-大数据征信模型体系。毋庸置疑,与传统风控体系比较,依托于大数据技术的“四大发明”的风控体系能够更加精准地识别及遏制套现行为,目前为止已经为1亿用户完成了信用评估。然而,大数据风控体系仍然无法解决其数据源上存在的问题。无独有偶,将区块链技术应用于大数据风控体系,可以有效解决大数据风控数据孤岛、数据低质和数据泄露等数据源问题。

区块链数据库可提高大数据风控的有效性

影响大数据风控有效性的关键因素是数据库的维护成本和信息传递效率。而单从数据的角度来看,区块链是一个由所有参与者共同记录(而不是中心化机构单独记录)信息、由所有参与记录的节点共同存储(而不是存储在中心化机构中)并且不可随意篡改的数据库。在这个区块链数据库中,每个用户节点都拥有整个数据库的完整拷贝,并且当某个用户节点要对数据库写入数据时,它需要向区块链网络广播这些数据,以便其余用户节点对这些数据进行验证审核操作。只有全网共同验证和认可后,数据才能写入区块链,并且一旦数据写入区块链后,就不能随意修改或删除。这样一个用区块链技术构建的数据库,对于大数据风控有效性的提高有重要意义。

首先,区块链去中心化、开放自治的特征可有效解决大数据风控的数据孤岛问题,使得信息公开透明地传递给所有金融市场参与者。设想以下情况:一位客户同时向A银行和B银行各申请100万元的房屋抵押贷款,但其房屋价值只有100万元。如果两家银行加入了同一区块链,就能即时辨别出客户的交易行为和风险,避免放贷总额超过抵押值。除了交易主体外,监管部门也可以作为一个用户节点加入区块链,实时监控其他用户节点的交易信息,防范风险事件的发生,无须再等到事后申报。利用区块链中全部数据链条进行预测和分析,监管部门可以及时发现和预防可能存在的系统性风险,从而更好地维护金融市场秩序和提高金融市场效率。可见,区块链去中心化的特征,可以消除大数据风控中的信息孤岛,通过信息共享完善风险控制。

其次,区块链的分布式数据库可改善大数据风控数据质量不佳的问题,使得数据格式多样化、数据形式碎片化、有效数据缺失和数据内容不完整等问题得到解决。在区块链中,数据由每个交易节点共同记录和存储,每个节点都可以参与数据检查并共同为数据做证,这提高了数据的真实性。而由于没有中心机构,单个节点不能随意进行数据增减或更改,从而降低了单一节点制造错误数据的可能性。举例来说,在银行或交易平台内部建立私有链,一位客户构成一个节点,一方面可以避免大量数据由单一信息中心集中录入和存储,降低操作风险;另一方面,卖方单方面的刷单行为可以通过买方的验证得到遏制,从而保证数据的真实有效。伪造的数据若想通过区块链网络的验证,必须掌握该私有链中超过50%的计算能力,当节点足够多的时候,该私有链的控制成本急剧上升。另外,区块链中每个节点都有完整的数据副本,只有当整个区块链系统发生宕机时数据才会丢失,并且数据记录一旦写入就不能修改。因此,区块链具备公开、透明和安全的特点,可以从源头上提高数据质量,增强数据的检验能力。

最后,区块链可以防范数据泄露问题。由于区块链数据库是一个去中心化的数据库,任何节点对数据的操作都会被其他节点发现,从而加强了对数据泄露的监控。另外,区块链中节点的关键身份信息以私钥形式存在,用于交易过程中的签名确认。私钥只有信息拥有者才知道,就算其他信息被泄露出去,只要私钥没有泄露,这些被泄露的信息就无法与节点身份进行匹配,从而失去利用价值。对于来自数据库外部的攻击,黑客必须掌握50%以上的算力才能攻破区块链,节点数量越多,所需的算力也就越大,当节点数达到一定规模时,进行一次这样的攻击所花费的成本是巨大的。因此,通过区块链对信息存储进行加密,保证数据安全,防范大数据风控中可能出现的数据泄露问题,是区块链的重要应用之一。 “区块链+大数据”风控,未来在哪里?根据BI Intelligence的《Fintech行业报告》预测,区块链的应用和普及将成为2016年金融业的最大趋势。那么,“区块链+大数据”能否成为风控的创新机遇?

毋庸置疑,“区块链+大数据”风控的发展前景是广阔的,但也不是一蹴而就的。随着金融科技的发展以及资金和人力的持续投入,区块链会与大数据技术跨界融合,对风控领域现存问题提出更合理更高效的解决方案。

在身份验证应用层面,由于合规合法制度要求,客户身份认证一直是金融等中介机构无法逾越的基础设施建设工作之一。过去,亲面亲签的认证方式既让客户体验度降低,又让中介机构为此投入大量人力和物力资源。目前,以Onename、BitID等为代表的第三方身份验证服务提供商开始利用区块链去中心化、公正公开的特性,在比特币平台上为金融等中介机构提供去中心的第三方客户身份认证的服务。简而言之,可以用“+Warren”实现身份认证或比特币交易。与此同时,利用大数据技术从数据端对引流的客户进行身份验证、特征筛选等,以此提高反套现、反欺诈和反作弊的准确度。

在金融合约应用层面,人为的操作风险和道德风险一直是大数据风控难以解决的问题之一。大数据风控主要针对消费者,对于金融机构的员工操作风险和道德风险层面,就显得有些捉襟见肘。区块链2.0技术的出现,使智能合约系统成为可能。基于区块链可编程的特点,可将合约指令嵌入到区块链中,有效弱化中心系统在数据监控和验证中的作用,并消除人为操作因素可能引发的风险。金融机构逐渐开始布局构建区块链技术的智能合约系统,使合约的合规检查自动化。

毋庸置疑,对于大数据+区块链的金融风控技术来说,区块链本身或许存在亟待完善的风险漏洞,比如The DAO被盗事件说明区块链的智能合约协议代码存在漏洞。与此同时,国内外区块链行业专家也正在尝试全新的解决方案。首先,在信用风险方面,区块链企业或可与保险机构跨界合作,开发区块链信用保证保险和履约保证保险来获得更强的公信力;其次,在操作风险和道德风险方面,区块链或将在原有开放源代码基础上迭代自动投票恢复交易和资金冻结的功能模块,以此来防范类似于The DAO事件中成员所引发的操作风险和道德风险;最后,在市场风险方面,基于区块链技术的数字货币或可锚定全球最具代表性的法定货币,比如美元、人民币和欧元等。

区块链技术作为一种特定的数据库技术,将与大数据、风控技术实现优势互补,进而构建全新的数据组织方式。笔者相信,在不久的将来,两项技术在风险控制领域的跨界融合将会上升到公司级和国家层的治理层面,从而带领我们进入强信任背书时代。

【责任编辑:许聃】
杨望 瀚德金融科技研究院执行院长、中国人民大学金融科技研究所高级研究员、中国人民大学国际货币研究所研究员。