论文部分内容阅读
协同过滤推荐作为一种重要的个性化服务,越来越广泛的应用于电子商务领域,为用户获取推荐信息和商家营销提供了极大的便利。然而托攻击的出现,严重降低了推荐系统的准确性和可用性,一定程度上制约了电子商务的发展。为此,托攻击检测的研究受到了广泛关注,本文在国内外专家研究基础之上,就基于特征选择的托攻击检测方法展开研究。由于托攻击的检测具有时效性,故随着时间推移,有必要重复检测。但初次检测和后续重复检测对算法的要求不同,初次检测要求算法结果尽可能准确,后续重复检测则要求算法具有较高的时间效率。因此,本文分别针对这两种不同需求展开托攻击检测算法的研究,并且将检测算法分解成两个子问题:有效的特征指标选择和基于特征指标集的检测算法。首先,考虑到传统托攻击检测算法不能灵活应对多种托攻击类型的情况,提出了一种基于信息熵动态选取检测指标的特征选择算法。结合信息熵的特性,将正常用户和攻击用户的划分看作两类随机事件,计算特征指标的信息熵,并以此判断其分类能力,完成特征选择。接着,设计了一种基于离群度的无监督检测算法,从特征值向量离群度的角度来识别攻击用户。分别在Movie Lens数据集上构造不同模型的托攻击,以此验证算法的正确性,再与其他几种主流的检测算法进行对比试验,验证算法的性能。然后,针对后续检测的高时间效率需求,在初次检测得到真实用户概貌集的基础上,提出一套基于项目流行度的托攻击特征提取方法。因为流行度是基于对项目评分数量的统计,所以在计算的复杂度上有较大的降低,再以真实用户与攻击用户在对评分项目的选择上存在差异为切入点,得出用户平均项目流行度和用户项目流行度信息熵两个特征指标,与上面的检测算法结合来完成后续的托攻击重复检测。最后,根据以上算法设计实现一个托攻击检测的仿真系统,通过模拟实际中托攻击检测的整个过程来验证本文所提出检测方法的正确性。