基于粗糙集和贝叶斯算法的邮件过滤系统的研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lp51443712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的迅速发展,电子邮件产业得到了很大的推广以及应用,人们通过使用电子邮件达到交流思想、传输文件、发表意见等目的。但是它在为人类带来方便快捷的通讯方式的同时,也为人类带来了一些副产品,也就是垃圾邮件。因此,电子邮件安全性问题已经逐渐受到越来越多用户的关注。当前对于垃圾邮件的过滤主要有以下几种技术:黑名单和白名单技术,基于规则的邮件过滤技术以及基于内容的邮件过滤技术等。这些过滤技术在准确度、性能以及中文变形词邮件过滤等方面都存在着问题,因此,本文将着重从这几个方面着手进行改进研究。本文首先介绍了垃圾邮件的起源以及发展历史,总结了垃圾邮件过滤技术的研究现状以及未来发展的方向。简单描述了贝叶斯算法及粗糙集理论以及他们在垃圾邮件过滤系统中的应用,并分析了这两个理论在应用过程中优缺点。本文对中文变形词的变形模式进行分析,并根据变形的模式采用一系列的处理方式来规避其对邮件分类造成的影响。本文提出了构造变形特征词表的多层过滤技术,使得过滤的准确度得到了有效的提高。本文采用粗糙集理论,对邮件系统的分类做了重新定位。将邮件分为普通邮件、垃圾邮件、与疑似邮件。提出了Bayes-Rough过滤算法,在该过滤系统中,根据两阶段过滤方法,不仅在对中文变形词邮件过滤的准确率有了改进,同时在效率方面也有了较大的提高。在结合了上述提出的邮件过滤技术,完成了一个完整的邮件收发系统中,实现了简单的邮件客户端。该系统能够满足配置邮箱、收发邮件等功能。并利用提出的过滤技术完成了该系统在接收邮件过程中的将邮件归类的功能。最后总结了该文中提到的邮件过滤的改进以及本文的具体工作,并提出了需要进一步完善的工作。
其他文献
近年来,互联网上信息量呈现爆炸式增长,有价值信息出现的同时无用的冗余信息也变得越来越多。为了应对海量信息的严重挑战,帮助人们从中找到真正有价值的信息,需要一些自动化文本
随着3D立体频道的开通,世界范围内的各个3D频道普遍存在节目制作周期长、更新慢、节目源匮乏的问题。此外,在立体影视节目制作时,也不可避免地需要利用一些原有影视节目镜头作为
伴随着通信技术和网络技术的高速发展,互联网内容不断丰富,逐渐形成了一个前所未有的超大型信息数据库,不仅如此,在互联网发展浪潮下日常OA系统中信息量也出现了爆炸式增长,用户查
随着计算机科学技术的飞速发展,软件的功能越来越强大,人们对软件质量和可靠性的要求也越来越高。软件测试是软件开发过程中的不可缺少的部分,为软件质量和可靠性提供保障。
伴随着计算机技术和通信技术的飞速发展,呼叫中心技术逐渐发展并成熟起来。与此同时,企业之间的竞争逐渐演变为服务质量的竞争,各大小公司都致力于营造顾客满意的服务质量,以进一
在分析实际问题的过程中,我们可能会对不同情况建立不同的模型。考虑一组数据应该用哪个模型来分析,这就是模型选择问题。本文主要讨论基于贝叶斯方法的模型选择及参数估计,这里
随着信息化进程的不断深入和互联网技术的迅速发展,网络安全问题逐渐成为人们关注的焦点。在众多的网络入侵行为和攻击中,软件漏洞问题成为了人们的噩梦,并造成了众多的安全性事
随着嵌入式技术、计算机技术和无线通信技术的发展,推动了无线传感器网络的进一步发展。无线传感器网络是由大量无线传感器节点构成的自组织通信网络。无线传感器网络节点将从
随着工业化进程的加快,空气质量开始不断恶化,并直接威胁到群众的身体健康。然而,要合理控制空气质量的恶化,首先得对空气质量做出科学的评价。本文使用时间序列方法和多元统计方
众包是一种分布式的问题解决方式。问题发布者利用网络将相关工作分解并以公开的方式传播给众包参与者,将众包参与者的空闲生产力利用起来,极大地提高了解决问题的效率。  在