Hans Journal of Data Mining
Vol.06 No.01(2016), Article ID:16829,6 pages
10.12677/HJDM.2016.61007

Research on the Factors Influencing Successful Targets on P2P Platform

—A Case Study of Ren Ren Dai

Mengling Liu

School of Finance and Statistics, Shanghai University of Finance and Economics Zhejiang College, Jinhua Zhejiang

Received: Jan. 7th, 2016; accepted: Jan. 24th, 2016; published: Jan. 27th, 2016

Copyright © 2016 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

In this paper, 5718 target recordings on Ren Ren Dai (a Peer-to-Peer lending platform) are selected for research. We take the variable which can reflect the target status as dependent variable, and lend credit scores, loan amount, etc. as independent variables. In order to help borrowers predict the success ratio, we build the Logistic model; the accuracy rate of the model is verified to be 93.7%. In addition, the results of the decision tree classification show a failure rate of 0.05. Finally, a comprehensive of the two methods comes to a conclusion that: credit rating, lending credit score and overdue times have the greatest impacts on the target status, and the variable target type has no significant effect.

Keywords:Peer-to-Peer, Logistic Model, Decision Tree, Failure Rate

P2P平台满标影响因素研究

—以人人贷为例

刘梦玲

上海财经大学浙江学院,金融与统计学院,浙江 金华

收稿日期:2016年1月7日;录用日期:2016年1月24日;发布日期:2016年1月27日

摘 要

本文选取以人人贷为例的P2P平台上5718条标的信息记录,以能反映标的状况的变量作为因变量,以借出信用分、借款金额等5个变量作为自变量,建立Logistic回归模型以帮助借款人对借款成功(满标)概率进行预测,最终模型预测的正确率达到93.7%。此外,以标的状况为因变量的决策树分类的结果显示误判率为0.05,综合两种方法最终得出信用等级、借出信用分数和以往逾期次数对标的状态影响最大,而标的类型的影响不显著。

关键词 :P2P,Logistic模型,决策树,误判率

1. 引言

随着互联网微金融的发展,P2P (peer to peer)网络借贷作为一种新的借贷形式,凭借其低门槛,高收益等优点越来越广泛的被人们所接受。P2P成立的思想起源于穆罕默德·尤努斯的“乡村银行”这一理念,旨在为那些资质不足以在银行获取贷款的群体提供小额贷款帮助,平台本身不参与交易,只是作为中介提供借贷双方交易的平台。P2P平台作为金融中介的网络借贷平台能有效地提高借款人的信用状况,能减少借款人与出借人之间信息不对称的问题[1] 。P2P平台交易的方式类似于竞拍:首先是借款人发布借款列表,然后是投资人给出自己的投资金额和投资利率,与其他投资人进行竞标。最后按照投资利率高低筛选出竞标成功的投资人,标的生效。如果过了标期,仍未筹满借款,则宣布流标。基于此第一家P2P平台Zopa 2005成立于英国,随后在2006年美国第一家P2P平台Prosper成立了,国内第一家P2P平台拍拍贷成立于2007年,借鉴了Prosper运营模式。具不完全统计,截止到9月底,我国有1438家P2P平台。

由于在P2P平台上借款人信用等级较低,平台为了控制风险,往往会对借款人的个人信息进行审核,并制定出一个较高的利率。同时将满标率控制在一定的范围内[2] 。就人人贷而言,截止到2013年8月15日的所有14446条借款记录中,仅有2307条记录显示借款成功,这部分仅占到15.97%。分析满标的主要影响因素一方面能够帮助借款者提高成功筹借资金的概率;另一方面对于平台来说,在借款人资质符合要求的前提下提高满标率,可以增加平台收益。国内外研究P2P平台的文献较少,特别是对满标影响因素的分析,丁婕在对借款满标的影响因素分析时,以拍拍贷数据为研究对象,将历史成功/失败次数、朋友数目加入Logistic回归模型中,来辅助借款人预测满标概率,最终预测率为89.6% [3] 。国外学者利用Prosper网站的数据研究了不同种类的变量对借贷结果的影响,通常包括借款人的信用水平、财务状况以及借款特征信息[4] 。Puro针对Prosper平台数据,建立了借款人决策辅助工具,根据研究对象的特征,分析了2万条借贷需求进行分析,最终筛选出信用等级、当前债务拖欠期、借款金额、债务收入比和借款利率作为主要变量,预测借款人的借款成功率[5] 。Scott等人研究了社会资金对出借人决策的影响,通过实验数据证明了出借者会根据借款者的借款金额来决定是否进行投资[6] 。

本文拟前人研究的基础上,针对人人贷平台数据,加入借款人逾期次数以及标的基本信息(如借款金额、借款期限等),希望对借款人满标概率进行预测,进一步得出对满标概率影响较为重要的因素来帮助借款人提高借款成功率。

2. 理论背景

本文拟采用Logistic回归对满标影响因素进行建模分析,希望通过最终建立的模型解释各个变量对满标具体的影响程度。然后结合决策树分类的方法,借鉴其划分类别的标志变量,找出影响满标的重要因素。

2.1. Logistic回归模型

如果令二分类变量Y=1的概率为p,则有Y=0的概率为(1-p)。有

这种p与自变量之间的回归关系式就是Logistic回归模型。将p变换为成为logit变换,记为logit(p),所以也称为logit模型。logit变换使得在[0,1]范围内取值的p变换到(−¥, +¥),当p趋向于0,logit(p)趋向于−¥,当p趋向于1,logit(p)趋向于+¥。称为“机会”或“优势”(odds)。

2.2. 决策树

决策树(Decision Tree)又称为判定树,是运用于分类的一种树结构。其中的每个内部节点代表对某个属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或者类的分布,最上面的结点是根结点。决策树提供了一种展示类似在什么条件下会得到什么值的这类规则的方法。

使用决策树进行分类分为两个步骤:

1) 利用训练集建立并精化一颗决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。

2) 利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。

3. 实证研究

3.1. Logistic回归结果

3.1.1. 数据描述

本文所选取的是利用网络爬虫从人人贷平台网站上抓取的自2013年5月至12月的5718条借款记录,其中有1758条记录显示已满标(用还款状态标记,若已还清或已垫付,则表明该标的已满标;已流标表明借款未能及时筹到所需金额的款项)。另有3960条记录显示已流标,流标率占69.26%。

本文选择标的还款状态来表示满标与否,人人贷平台上标的还款状态有已还清、已垫付和已流标。已还清和已垫付说明标的列表在标期内已筹借到足够的资金,我们将其视为标的满标;已流标代表着该标的由于平台审核等原因而未能在标期内及时抽满借款,借款宣布失败。然后选择了标的类型(信用认证标、机构担保标、实地认证标)、借款金额、借款期限、利率、信用等级、借出信用分这六个变量作为自变量来研究满标的影响因素。

3.1.2. 数据整理

btype = 1表示信用认证标,btype = 0代表机构担保标和实地认证标;credit1 = 1,credit2 = 0,credit3 = 0代表信用状况高(AA,A);credit1 = 0,credit2 = 1,credit3 = 0代表信用状况良好(B,C或D);credit1 = 0,credit2 = 0,credit3 = 1代表信用状况中等(E);credit1 = 0,credit2 = 0,credit3 = 0代表信用状况差(HR)。amount为借款金额,period为借款期限,interest为借款利率,lcredit为借出信用分,overdue表示历史逾期次数。

在所有的5117条信用标中,1157条记录显示为满标占22.61%,3960条记录显示为流标,占77.39%;其他标的类型的601条记录均满标。信用状况高的645条记录中99%的借款满标,只有1%的流标;信用状况良好的324条记录中85.5%的借款满标,14.5%的借款流标;信用状况中等的395条记录中71.9%的借款满标,28.1%的借款流标;信用状况差的12.8%的借款满标,87.2%的借款流标。

3.1.3. 模型建立

我们将要建立的模型形式为:

其中P为待求的满标概率。

用spss对数据进行向后步进(似然比)方法进行回归后的结果如表1所示。

表1可以看出,模型中btype这个变量并不显著,我们将其强制去掉后再次进行回归,得到的结果如表2所示。

据此建立如下模型:

模型结果表明:随着借款金额、借款期限和借款利率的提高,满标概率逐渐降低;信用等级越高,借出信用分数越高,满标概率大。

3.1.4. 模型评价

该模型分类的效果如表3所示。

表3我们可以看出,满标的正确率为94.0%,流标的正确率为93.2%。模型整体拟合的正确率为93.7%,误判率较低。

表4显示了最终模型的Cox&Snell R方为0.595,Nagelkerke R方为0.840。说明模型整体上拟合效果较好。

为了进一步验证模型的推广作用,我们用五折交叉验证对该数据集进行检验,用R软件操作的结果显示,训练集的误判率为0.0624,测试集的误判率为0.0633。再次说明了所建立的该模型效果较好,可以用以推广。

3.2. 决策树分类结果

为了更进一步的得出对满标有重要影响的因素,我们采用决策树来找出能够较大程度上区分开满标和流标的关键变量。用R软件操作的结果为:

运行的结果如图1所示。

图1显示了决策树分类的结果,我们可以看出决定满标与否的两个重要变量为借出信用分(lcredit)。运用决策树分类的误判率为0.055。分类效果较好,说明依据lcredit这个变量进行分类的结果是可靠的。

Table 1. Regression results for the first time

表1. 第一次回归的结果

Table 2. Regression results for the second time

表2. 第二次回归的结果

Table 3. Classification results

表3. 分类结果表

Table 4. Model summary

表4. 模型汇总

4. 结论

综合实证部分的分析我们可以得到,在决定满标状态的因素中,借款人的信用等级、借出信用分起

Figure 1. Decision tree classification results

图1. 决策树分类结果

着重要的作用,具体来说信用级别为B,C和D的借款人借款成功机率高于其他级别的8.4倍;信用级别为E的借款人借款成功机率高于其他级别的7.4倍;随着借出信用分数的增加,每增加一分信用分,就增加了1.08倍的成功几率。

由于本文只是针对人人贷的数据进行的建模,而每个P2P平台运营模式不完全相同,数据都各有自己的特色,我们所建立的模型的适用性有待进一步研究。因此在接下来的研究中,我们希望通过搜集更多平台的标的数据,找出各个平台的数据共性,最终能建立一套普适的模型,对广大的借款者进行发布借款列表起到一定的参考作用。

文章引用

刘梦玲. P2P平台满标影响因素研究—以人人贷为例
Research on the Factors Influencing Successful Targets on P2P Platform—A Case Study of Ren Ren Dai[J]. 数据挖掘, 2016, 06(01): 54-59. http://dx.doi.org/10.12677/HJDM.2016.61007

参考文献 (References)

  1. 1. 陈冬宇, 李伟军, 丁婕. 网络借贷借款人决策辅助模型[J]. 吉林大学学报, 2012.

  2. 2. 辛硕. 关于p2p的风险控制的探讨[J]. 金融观察, 2014.

  3. 3. 丁婕. 我国P2P网络借贷平台及借款人行为研究——以拍拍贷为例[D]. 四川: 西南财经大学, 2012.

  4. 4. 莫易娴. P2P网络借贷国内外理论与实践研究文献综述[J]. 金融讲坛, 2011.

  5. 5. Kumar (2007) Bank of One: Empirical Analysis of Peer-to-Peer Financial Marketplaces. 13th Americas Conference on Information Systems, Association for Information System, Keystone, 1-8.

  6. 6. Puro, L. (2010) Bor-rower Decision Aid for People-to-People Lending. Decision Support Systems, 49, 52-60. http://dx.doi.org/10.1016/j.dss.2009.12.009

期刊菜单