论文部分内容阅读
评论类网站为用户提供了交流意见和分享观点的平台,群体评论意见往往反映物品的真实情况,这些功能帮助用户获取更多有价值的信息。例如在电子商务平台上,用户对购买的商品进行的评分或是文字评论可以帮助其他用户了解商家没有告知的商品信息,辅助用户做出选择。然而,部分商家为了商业目的让部分用户发表不实评论信息,夸大商品优点或是诋毁竞争对手的商品,甚至有商家通过众包平台,雇佣大量用户进行虚假评论,给评论类网站上的公平环境带来负面影响。因此,有必要对评论行为进行欺诈分析和检测。评论类网站上的欺诈行为检测存在几个困难:首先,用户对商品的认同感通常是个性化的,不同用户评分受个体因素影响较大;其次,个体用户的偏好也存在波动性,对相同质量的物品或服务的评价可能会因所处环境的差异而变化,并非每次评论行为均是客观公正的;再者,数据中缺少对评论行为的欺诈标记。理论上欺诈行为应该依据客观的标准和事实进行判定,而评论行为的主观性和随机性、以及动态性和数据量巨大等特点给欺诈行为的判定带来困难。针对这些问题,本文工作分别针对个体用户、用户群组和单次评论进行不同粒度的欺诈检测。针对欺诈用户的检测问题,本文提出了基于统计的异常行为发现和共谋群组检测方案。根据用户群体行为和个体历史行为的统计特征,提出了用户偏离度、行为波动性和用户行为影响力等度量指标,辅助分析欺诈用户。然后对检测出的欺诈用户依据其历史评分行为进行聚类分析,并计算组内的用户行为影响力和行为一致性,最终得到共谋用户组。为了能够进一步地实现对用户单次评论的欺诈行为检测,本文利用用户对商品的评分信息,采用表示学习的方式获得用户和商品的隐式向量。同时,对用户评论行为特征进行抽取,并将用户与商品的隐式向量以及用户评论行为特征作为神经网络的输入,输出该条评论为欺诈评论的概率值。同时,针对数据集中存在的“类别不均衡”现象,本文提出集成学习和阈值移动两种策略,并判断该次评论是否为欺诈评论。在欺诈用户检测中,实验采用Amazon、MovieLens以及豆瓣电影等平台的真实数据,实验结果展现了较好的针对欺诈用户的检测能力以及针对共谋用户组的预测能力。对于欺诈评论的检测,文中采用Yelp平台的真实数据集,相比于其它经典算法,本文提出的欺诈评论检测算法展现了更好的实验结果。