论文部分内容阅读
随着互联网技术的不断发展,互联网已经融入了我们生活中的方方面面。评论系统是以此为背景发展起来的一个新兴产物,其广泛应用于各大社交网站,电子商务平台,以及论坛,贴吧等互联网应用中。尤其在电子商务领域,由于网络的虚拟性以及用户对所购买的产品无法直观的去感受等原因,评论系统中其他用户对于产品的评论是其他顾客在选购产品时重要的参考依据。很多不良商家出于个人利益的原因,雇佣虚假评论人对其销售的产品进行夸大性的评论,或者雇佣虚假评论人对其竞争对手进行诋毁性的评论。虚假评论问题的出现,大大推进了针对此方面的研究。国内外诸多研究人员针对此问题从不同角度,采用不同方法对此问题进行了诸多研究。本文针对此问题提出了一个基于图聚类思想的虚假评论人群组检测算法。本文认为仅从单个评论人的角度来发现虚假评论人其准确性以及效率是相当低的。只要虚假评论人在其评论过程中刻意模仿正常评论人的行为或者进行群组的虚假评论,则此类评论人则不易发现。本文提出的算法善于发现隐藏较深的虚假评论人和合作倾向的虚假评论人群组。本文针对评论人之间的相似度提出了从属性和结构两方面考虑的相似度计算公式,并且认为真正的虚假评论人群组应该是组内联系紧密的一个小团体,故在虚假评论人群组建立的时候利用双连通技术对其组内紧密度进行了严格的约束。在后续聚类阶段采用模糊图分割技术,针对图分割技术在图聚类中的诸多问题结合我们的应用场景对其进行了解决。在最终的实验环节,本文针对虚假评论人群组检测的特性,提出了若干针对虚假评论人群组的人工评估特征,并利用这些特征对算法中的结果进行了人工的检验。同时在相同数据集下从本文算法计算出的结果中抽取500个虚假评论人群组与其他算法计算出的500名虚假评论人群组进行准确率方面的比较,进而验证我们算法在准确率方面的优势。