论文部分内容阅读
随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的网络带宽和存储资源,而且带来了网络和信息安全隐患。因此,研究垃圾邮件过滤技术具有重要的现实意义。基于内容的垃圾邮件过滤技术是反垃圾邮件的重要技术,目前主要有关键词过滤技术、基于规则的过滤技术和基于统计学习的过滤技术。基于概率统计的朴素贝叶斯算法因其简单、高效、分类精确度高等优点,被广泛应用于垃圾邮件过滤系统中,然而它也也有缺点,例如不能很好地应用于中文邮件过滤、没有考虑到误判风险、不能进行增量学习等。分析了中英文邮件在分类处理上的差异,讨论了中文邮件预处理技术,包括邮件解析、中文分词和特征选取,并给出了朴素贝叶斯中文邮件过滤算法。邮件过滤中,合法邮件误判为垃圾邮件会给用户带来更大的损失,传统贝叶斯算法没有考虑到这种差异。在朴素贝叶斯算法基础上,引入了损失最小化的思想,提出了最小风险贝叶斯邮件过滤算法,该算法能根据用户的需求通过调整损失因子的大小,达到相应的过滤效果。在训练集数据不完备的情况下,贝叶斯分类器容易对新邮件产生分类错误,若这些分类错误的邮件过早地加入到分类器中会降低其分类性能。传统贝叶斯分类器要想学习新样本所包含的信息,必须重新学习全部样本,这样每学习一次,都要耗费大量的时间。为解决这些问题,提出了基于用户反馈的贝叶斯增量学习算法,在最小风险贝叶斯分类器的基础上,自主选择学习新样本修正分类器,并给出了增量学习计算公式。使用JAVA语言实现了本文提出的算法,在中国教育科研网的中文邮件语料上测试了中文邮件过滤中特征数、损失因子等参数和过滤效果间的关系,得出了较优的参数设定。实验结果也表明改进的基于用户反馈的最小风险贝叶斯增量学习算法在性能上优于传统的贝叶斯邮件过滤算法。