本篇论文目录导航:
【题目】无抵押无担保P2P网络贷款的信用风险研析
【第一章】我国P2P网贷模式的信用问题研究绪论
【第二章】我国P2P网络贷款现状、模式及信用分析
【第三章】P2P网络贷款信用风险度量
【4.1 - 4.2】拍拍贷信用风险要素挖掘及处理技术
【4.3 - 4.4】拍拍贷信用风险模型构建
【第五章】英美P2P行业发展与监督经验借鉴
【总结/参考文献】中国P2P网络贷款信用管理研究总结与参考文献
(三)信用风险模型构建
1.模型指标选取
本文结合 P2P 网络贷款信用风险的自身特点和拍拍贷网站所提供的黑名单信息,总结出 22 个综合反映借款者信用风险的定性和定量指标。
如表 4-3 所示,这些指标被分为 5 类,借款者基本信息包括借款人的性别、年龄、户籍、联系方式、婚姻状况、学历、从事职业、工作时间;贷款状况包括贷款周期、贷款金额、贷款次数、已还款金额、贷款逾期天数;借款者还款能力包括借款者年收入、净收入、所持有的金融资产、所持有的其他资产;借款者还款意愿包括借款者银行信用记录、人民银行征信报告;贷款担保包括借款人是否提供担保、是否参与联保、住房状况。
由于网站提供的拖欠贷款黑名单数据过多,同时拖欠贷款者的披露信息完整性各不相同,本文将对过多的数据字段进行缩减处理,删除对分析结果影响甚微的数据字段,并对表达相同意义的字段进行合并处理,选出对信用风险分析能力最强的若干指标。同时,将部分定量数据映射到较小的区间内,例如,将贷款金额映射到[1,100]区间内,缩小各借款者借款金额直接的差距,提高模型的分类能力。
结合网站提供的信息,本文将采用性别、婚姻状况、年龄、学历、贷款周期、贷款金额、从事职业、财产状况、还款意愿、亲友担保状况共 10 个指标来判断借款者的信用风险。如表 4-4 所示:
(1)性别:有研究认为男性的违约率普遍高于女性,因而信用风险更高。
(2)婚姻状况:婚姻让人更富有责任感,因此已婚借款者的违约概率较低,信用风险也较低。
(3)年龄:国外有学者的研究结果表明,借款者的信用风险与年龄呈现出双峰曲线的关系,即初次步入社会的借款人和 36 岁左右的借款人信用风险高于其他群体。
(4)学历:一般认为,借款者的信用风险与学历呈反向变动关系,即随着借款者学历的提升,其信用风险降低,这与高学历者更容易获得高收入并且更加诚信有关。
(5)贷款周期:贷款周期即贷款期限的长短,一般认为,贷款周期越长,其面临的不可控因素越多,信用风险越大。
(6)贷款金额:贷款金融与借款者的违约概率呈正向变动,即贷款金额越大,借款者违约的概率越高,信用风险越大。
(7)从事职业:借款者的职业反映了借款者收入的稳定性及借款者的偿还能力。
(8)财产状况:借款者所拥有的财产越多,其偿还能力越强,违约概率越低,从而信用风险越低。
(9)还款意愿:还款意愿由借款者所提供的银行信用记录和人民银行征信报告共同决定。
(10)亲友担保状况:亲友担保是借款者的第二还款来源,其降低了借款者的违约概率,从而可能与信用风险呈反向变动关系。
2.指标的量化处理
由于上述指标中既含有定量指标,又含有定性指标,所以必须在使用样本数据前对指标进行处理,使其具有一致性。本文将定性指标的相应结论按照其与信用风险相关的程度转化为有序响应变量。
3.描述性分析统计分析
通过对输入的 90 个样本数据进行描述性统计分析分析,我们发现:
逾期未偿还贷款者中男性占 88%,男性违约的概率要远远高于女性。其中,已婚男性违约的比例为 40%,已婚女性违约的比例为 5%,均较单身状态下有所降低。验证了男性的信用风险高于女性,已婚者的信用风险低于单身者。如图 4-2 所示。
违约群体中,32 岁至 38 岁的违约者所占的比例最高为 45%,其次是26 岁至 31 岁的借款者。这也验证了借款者的信用风险与年龄呈现出双峰曲线的关系。如图 4-3 所示。
在 90 名逾期借款人中,“大专及以上”学历有 16 人,“高中”学历有 35 人,“初中”学历有 21 人。逾期借款人集中在初中、高中学历,且随着学历的提高,逾期借款者的比例逐渐降低。如图 4-4 所示。
逾期借款人所从事的职业集中在单位职工、个体户以及网店卖家中,而占总人数最多的“其他”职业主要表现为借款者无固定职业或未提供相应的工作证明。这也说明了从事稳定的职业对于借款者信用风险的重要性。如图 4-5 所示。
通过对所有借款者的贷款金额进行平均,我们发现拍拍贷借款平台98%的借款金额小于 10 万元,一般在 3000 元至 1 万元之间,且借款周期有 67%小于 12 个月,属于短期周转。
拖欠贷款比例超过 80%者仅占 8%,表明绝大部分借款者都曾部分还款。而且,有很大一部分贷款拖欠者仅拖欠最后一期贷款。
在财产持有方面,96%的借款者无固定财产,仅有 4%的借款者提供了房屋所有证明。这也与拍拍贷属于信用贷款有关。
在逾期借款人的偿还意义方面,仅有 16%的逾期借款者同时提供了人民银行征信报告及银行交易流水证明,42%的逾期借款者未提供任何证据来证明自己的还款意愿。
在担保情况方面,所有的逾期借款者均没有提供自有资产作为担保,仅有 42%的逾期借款者提供了亲友的身份证件作为担保,而 58%的逾期借款者未提供任何担保文件。
4.指标的适用性检验
在根据各指标的特性对其进行合并缩减后,为了避免因指标间的多重共线性问题造成的模型系数估计偏差,应首先对指标进行相关性检验,剔除相关系数较大的指标;其次,进行变异程度分析,去除变异系数较低的指标,以避免离散程度过低造成的估计偏差;最后,对各指标进行主成分分析,求得各指标对于借款者信用风险的解释权重,去除解释作用较小的指标,在降维的同时提高模型的估计效率。
(1)相关性检验
相关系数是两个随机变量线性相关程度的数字特征,常用 r 来表示,其值介于[-1,1]区间内,度量了两个随机变量同时波动的方向和程度。
即当两个变量变化完全相同,则其相关系数为 1,当两个变量变化完全相反,则其相关系数为-1,当两个变量之间不存在线性相关关系,则其相关系数为 0.根据经验可以得出相关系数与变量相关性之间的如下规律。
通过对所选取的 10 个指标两两进行相关性分析,我们发现 V2、V6、V21 与 V3 的相关系数均超过了 0.3,其他各指标间的相关系数绝对值均小于 0.3,说明除 V2、V6、V21 之外指标间的相关性极弱,对借款者信用风险均有解释意义。
(2)变异性检验
变异性分析又称为离散程度分析,通常被用以度量样本数据离散程度。变异系数的计算公式为:
通过对各个指标进行变异程度分析,可以反映各个指标的离散程度。如果 CV 越小,则数据离散程度越低,用于模型评价时的区别能力就越差。
通过对选取的 10 个指标的变异系数进行计算,我们发现各指标的变异系数都大于 0.15,具有较强的模型评价能力。
(3)主成分检验
主成分分析(Principal Components Analysis,简称 PCA)由霍特林(Hotelling)于 1933 年首先提出。它通过投影的方法,实现数据的降维,在损失较少数据信息的基础上把多个指标转化为几个有代表意义的综合指标。
由式(1)和式(2)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量 Y 的统计特征显然是不一样的。每个尽可能多地反映 k 个原始变量的信息,通常用方差来度量“信息”, 的方差越大表示它所包含的信息越多。由式(3)可以看出将系数向量 扩大任意倍数会使 的方差无限增大,为了消除这种不确定性,增加约束条件:
通过主成分分析,可以使解释指标减少,简化数据,舍去不重要的主成分。通过分析后的主成分是原始样本指标的线性组合,且能保留原始样本的绝大多数信息。
通过主成分分析,仅有 4 个特征值大于 1 的主成分,所以共提取 4个累计贡献率达到 60%的主成分。解释的总方差如表 4-9 所示。
计算各变量的权重系数如表 4-10 所示,确定加总权重系数值较大的4 个指标作为 P2P 网络贷款信用风险研究的解释变量。
综合以上检验,最终确定 4 个变量: V3、V8、V7 和 V19 作为解释变量,分布记为 X1、X2 、X3 和 X4,这些变量分布代表年龄、贷款周期、贷款金额和还款意愿最终确定的 P2P 网络贷款信用评价指标。
5.模型的建立于检验
由于我们构建模型所利用的是拍拍贷网站公布的黑名单数据,所以将拖欠贷款者的拖欠比例(逾期尚未偿还金额与贷款金额的比)作为被解释变量,这样可以得到年龄、贷款周期、贷款金额和还款意愿各自对于 P2P 网络贷款拖欠比例的贡献。
(四)小结
经过以上分析,我们虽然得到了年龄等因素对于拖欠贷款者信用拖欠比例的回归方程,在一定程度上验证了各解释变量对于拖欠贷款者违约的贡献,但整个方程拟合程度并不高,仅有 40%.笔者认为,造成这一结果的原因主要有以下几个方面:
一方面,源于模型所依赖的数据,由于本文所选取的数据来源于一家 P2P 网络贷款公司所公布的拖欠贷款黑名单,并不具有普遍代表性。
另外网站所公布的黑名单已经属于违约群体,并不能从所掌握数据中得出借款者的特征信息对于贷款是否违约的解释意义。更重要的是,网站公布的黑名单所涉及的信息可能并不是导致贷款违约的决定性因素,因此,通过网站所公布的黑名单虽然可以得到相关因素对贷款违约比例的解释模型,但该模型对贷款违约事实的解释程度难免差强人意。
另一方面在于所选取的模型归回方法的局限性,本文采用了多元回归模型作为度量 P2P 网络贷款信用风险的方法,但是多元回归模型有着较强的假设条件,本文所依赖的数据可能并不能完全符合其假设条件。
因此,仅采用这一方法进行模型建立可能并不能很好的拟合实际情况。
而事实上,现实情况比假设条件更复杂,可能需要依靠更加精确的模型才能取得具有较强说服能力的模型。
尽管本文所提出的模型对于现实数据的解释能力较低,但却为后来的研究者提供了借鉴。文章验证了在目前所掌握的信息基础上,从网站所公布的“黑名单”出发,探索 P2P 网络贷款信用风险度量的方法并不适用。同时也说明了,P2P 网络贷款信用风险研究需要更多具有较强解释能力的数据。