论文部分内容阅读
垃圾评论者的检测无论是在推荐算法还是在观点挖掘中,都起到了重要的作用。现阶段,垃圾评论者的检测在国内外得到广泛的研究,并取得显著的成果。由于国内外基于评论关系图的垃圾评论者的研究中,并没有有效的考虑评论者之间的关系,以及未考虑融合评论内容特征和评论者关系的垃圾评论者检测方法。因此,本文以这两个特征展开了以下几个研究:(1)针对目前检测垃圾评论者的方法主要基于评论、评论者和商店之间的关系,而未结合评论者之间关系的问题,提出基于评论者关系多边图的垃圾评论者检测方法。该方法以每个评论者为节点,评论者间的支持关系为边,构建评论关系多边图模型。而后根据多边图模型,采用基于PageRank的评论者互评估可信度模型来检测垃圾评论者。最后,在Resellerrating.com和亚马逊数据集上的结果表明该模型能够更为有效的识别出垃圾评论者,在一定程度上解决了仅发表一条评论的评论者难识别的问题,与基准相比,准确率分别提升了 13%和14%。(2)针对基于PageRank的方法计算评论者互评估可信度的过程中存在垃圾评论者通过链接作弊方式提高自身排名的问题,提出了基于可信度传播的垃圾评论者检测方法。该方法首先构建了评论者关系图,其次同时考虑TrustRank和评论真实度构建了评论者可信度传播模型,通过使用该模型在评论关系图上随机游走的方法计算每个评论者的可信度。最后根据评论者的可信度检测垃圾评论者。通过两个数据集进行检验,实验结果表明与使用PageRank的评论者互评估方法相比,本方法的准确率在两个数据集上都提升了 2%。(3)针对基于评论者的可信度传播方法检测垃圾评论者的过程中未充分利用评论者的不可信度传播的问题,提出同时结合TrustRank和Anti-TrustRank的垃圾评论者检测方法。该方法首先在已构建的评论关系图上,再以每个评论者为节点,根据评论者之间的反对关系构造反对边,得到评论综合关系图。而后利用Anti-Trustrank算法和TrustRank算法分别在反对边上和支持边上进行随机游走,从而得到评论者的被传播可信度和不可信度。最后通过结合TrustRank和Anti-Trustrank的线性组合模型用于检测垃圾评论者。在两个数据集上的实验结果表明该模型与未结合不可信度传播模型的结果相比,准确率都提升了 2%,与基准相比,本方法准确率分别提升了 17%和18%。