论文部分内容阅读
P2P网贷充分地吸纳了银行存贷之外的长尾流量,是我国互联网金融的重要组成部分。相比传统金融,互联网金融发展迅速、渗透力强,但由于它起步较晚,整个行业仍然存在诸多或大或小的问题。比如P2P网贷时常发生平台跑路,借款人逾期违约,出借人投资无门,借款人融资无果等现象。这些问题不仅对借款人和投资人的利益造成损失,同时也不利于整个P2P行业的发展,不利于互联网金融的持续繁荣。本文将针对P2P网贷行业中借款无果,投资无门的问题开展研究,试图探寻影响借款人借款结果,以及还款结果的影响因素,最终建立借款预测模型和还款违约预测模型,对P2P行业的发展具有一定的理论和实践意义。借贷市场中借款人发布借款请求后最为关心的是能否成功筹资,投资人出借资金后最为关心的是能否及时回收本金和获得收益。已有的研究已经证明借款人硬信息会显著影响借款结果和还款结果,而文本软信息是否对此存在影响还有待探究。在前人研究基础上,本文将从借款文本角度去探索影响借款和还款结果的因素。利用主题模型从借款标题里归纳出借款人本次借款目的,利用情感分析方法从借款描述中定量计算本次借款紧迫度。本文采用监督学习和半监督学习算法,将添加文本信息作为输入特征,建立特征更加丰富、维度更加全面的借款结果和还款结果预测模型。因此,借款人在发布借款需求之前可以预估自己能成功筹资的概率,投资人在出借资金之前也能获悉本次还款人的违约可能性。从而帮助借款人提高借款成功率,同时也帮助投资人保障自身利益不受损失。对于P2P网贷平台而言,一方面提高了平台的成交量,另一方面降低了还款违约率,对平台的收益和健康发展都起到了一定作用。本文的创新点如下:1.将文本挖掘方法应用于P2P网络借贷行为的实证研究当中,从新的角度探索P2P网络借贷行为的影响因素。以往关于P2P网贷行为影响因素的研究主要是探索借款人个人基本信息、财务信息、历史借款信息等对借贷结果的影响,较少的文献关注借款文本。本文分别从借款标题和借款描述两种文本中去挖掘隐藏信息,更全面地探索P2P网贷行为。2.借鉴情感分析方法,从借款描述中分析出借款人此次借款紧迫程度。从文本角度研究P2P网贷行为的文献较少,而且大部分是分析文本的语言表达方式,比如语法错误、错别字或者说话语气等方面。本文借鉴情感分析方法,并首次定义借款紧迫度变量,定量分析借款紧迫度对P2P网贷行为的影响。3.采用文本软信息预测变量,并构建新的集成学习监督分类器预测借款结果。传统的信贷预测模型大多使用财务信息,人口统计学信息,历史借款行为等硬信息作为预测变量。而信贷领域存在大量的借款失败案例,为了更好地利用这些拒绝用户的文本软信息,本文使用半监督算法构建半监督分类器来预测还款结果,效果优于传统的监督算法。