论文部分内容阅读
随着Internet的普及,电子邮件以其快捷、方便、低成本的特点成为互联网上最重要、最普及的应用。但是电子邮件在成为一种信息交流工具的同时,也正在成为一种商业广告手段。在收到有用信息的同时,用户也会收到大量的各种各样的广告邮件,需要花费大量的时间来处理这些所谓的“垃圾”邮件。如何对邮件进行处理,将用户感兴趣的邮件保留而过滤掉垃圾邮件是用户关心的问题。虽然目前有些系统已采用一些技术进行反垃圾邮件处理,但是这些技术都存在一定的不足,并且都不能提供用户个性化服务,因此研究一种有效的反垃圾邮件系统具有十分重要的意义。
目前,解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤方法是一个较为重要的方面。这种方法是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在邮件训练集的基础上结合学习的过程建立垃圾邮件分类器。这是当前解决垃圾邮件问题的主流技术之一。主要有基于规则的方法和基于概率统计的方法两个方向。贝叶斯方法是基于概率统计方法的代表,它具有方法简单、运算速度快、分类精度高等优点。本文基于这种方法设计了一个基于贝叶斯方法的邮件客户端过滤系统,并与其他的分类算法做出了比较,主要的工作如下:
1)概述了垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害、邮件系统的工作原理以及常用的过滤技术。
2)介绍邮件文本信息预处理的整个过程,尤其针对中文邮件处理。主要包括中文分词处理,特征项的选择,向量空间模型的建立。
3)论述文本分类技术,详细分析了贝叶斯分类方法,使用中文邮件试验分析贝叶斯算法的性能,从特征项的数量和阈值的选择上来分析对试验结果的影响。同时,将采用贝叶斯算法与支持向量机算法的邮件过滤器的执行效果进行了比较,对邮件的召回率贝叶斯算法略低于支持向量机算法,正确率上相差不大,但是支持向量机算法的时间复杂度高于贝叶斯方法,执行起来效率较低,不利于实际应用。因此采用贝叶斯方法构建邮件过滤器。
4)利用上述的这些理论知识和J2EE的开发平台,构建了一个基于客户端的邮件过滤系统,为用户提供个性化的服务,根据用户的兴趣度建立训练集,分析不同用户对邮件不同的关注,并且提供自学习的机制,采用增量式的学习方法。由用户自己制定系统学习的时间,来提高系统分析的准确程度。