基于内容的邮件过滤系统设计

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:qh12121312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及,电子邮件以其快捷、方便、低成本的特点成为互联网上最重要、最普及的应用。但是电子邮件在成为一种信息交流工具的同时,也正在成为一种商业广告手段。在收到有用信息的同时,用户也会收到大量的各种各样的广告邮件,需要花费大量的时间来处理这些所谓的“垃圾”邮件。如何对邮件进行处理,将用户感兴趣的邮件保留而过滤掉垃圾邮件是用户关心的问题。虽然目前有些系统已采用一些技术进行反垃圾邮件处理,但是这些技术都存在一定的不足,并且都不能提供用户个性化服务,因此研究一种有效的反垃圾邮件系统具有十分重要的意义。 目前,解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤方法是一个较为重要的方面。这种方法是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在邮件训练集的基础上结合学习的过程建立垃圾邮件分类器。这是当前解决垃圾邮件问题的主流技术之一。主要有基于规则的方法和基于概率统计的方法两个方向。贝叶斯方法是基于概率统计方法的代表,它具有方法简单、运算速度快、分类精度高等优点。本文基于这种方法设计了一个基于贝叶斯方法的邮件客户端过滤系统,并与其他的分类算法做出了比较,主要的工作如下: 1)概述了垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害、邮件系统的工作原理以及常用的过滤技术。 2)介绍邮件文本信息预处理的整个过程,尤其针对中文邮件处理。主要包括中文分词处理,特征项的选择,向量空间模型的建立。 3)论述文本分类技术,详细分析了贝叶斯分类方法,使用中文邮件试验分析贝叶斯算法的性能,从特征项的数量和阈值的选择上来分析对试验结果的影响。同时,将采用贝叶斯算法与支持向量机算法的邮件过滤器的执行效果进行了比较,对邮件的召回率贝叶斯算法略低于支持向量机算法,正确率上相差不大,但是支持向量机算法的时间复杂度高于贝叶斯方法,执行起来效率较低,不利于实际应用。因此采用贝叶斯方法构建邮件过滤器。 4)利用上述的这些理论知识和J2EE的开发平台,构建了一个基于客户端的邮件过滤系统,为用户提供个性化的服务,根据用户的兴趣度建立训练集,分析不同用户对邮件不同的关注,并且提供自学习的机制,采用增量式的学习方法。由用户自己制定系统学习的时间,来提高系统分析的准确程度。
其他文献
我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。本课题是研究和开发高层和大型建筑的计算机三维模型的快速生成系统,为建立消防档案提供三维的机制,促
在异构分布式环境中,具有依赖关系的任务调度问题属于NP完全问题。为了取得较好的调度方案,很多启发式调度算法被引入到了调度问题的研究当中。例如:列表调度算法、遗传算法、模
用计算机生成具有真实感的画面是计算机图形学的主要目的。其前提是构建虚拟场景的逼真几何表达。一种有效的解决途径是获取真实世界中物体的几何信息,然后基于这些信息进行建
数据挖掘的研究经过十几年的迅速发展,已经取得巨大成就,相关技术正在被各应用领域的专家所瞩目。目前,数据挖掘研究及其应用己经渗透到多个学科及领域中,并在人工智能与机器学习
移动数据库是为了适应移动计算环境下的数据存取需求而产生和发展起来的。采用数据复制和同步技术的复制移动数据库系统是移动数据库的一种重要模型,这种模型对移动设备在断连
当前世界的竞争,是各国之间综合国力的竞争。确切地说:是经济的竞争,科技的竞争,能源的竞争。进入二十一世纪,人类对能源的需求与日俱增:原油需求量日益膨胀,原油价格一路飚升。而目
计算机网络技术的快速发展推动着分布式计算的进步,促成了计算机应用体系从独立应用体系向网络应用体系的转变。然而,随着网络应用在各个领域的迅速扩展,分布式系统开发的复杂性
词义歧义是指一词多义,即一个词在不同的上下文中有不同的意思。词义消歧就是根据上下文的语境,确定文本中每个词的确切意思。在自然语言处理领域中,词义消歧是一个必不可少的环
实时系统主要面向现实世界中与时间因素相关的应用需求,它所关注的不仅是计算结果在逻辑上的正确性,而且还有输出结果时间的及时性。目前,实时系统已经广泛应用在军事和民用领域
随着互联网的兴起以及社交媒体的快速发展,网民可以在线自发的、不受时空限制的对各种社会现象、社会问题进行集体讨论。网络已经成为反映社会舆情的主要载体之一。因此,对网络