基于贝叶斯理论的中文垃圾邮件过滤算法研究

来源 :兰州交通大学 | 被引量 : 6次 | 上传用户:floraccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的网络带宽和存储资源,而且带来了网络和信息安全隐患。因此,研究垃圾邮件过滤技术具有重要的现实意义。基于内容的垃圾邮件过滤技术是反垃圾邮件的重要技术,目前主要有关键词过滤技术、基于规则的过滤技术和基于统计学习的过滤技术。基于概率统计的朴素贝叶斯算法因其简单、高效、分类精确度高等优点,被广泛应用于垃圾邮件过滤系统中,然而它也也有缺点,例如不能很好地应用于中文邮件过滤、没有考虑到误判风险、不能进行增量学习等。分析了中英文邮件在分类处理上的差异,讨论了中文邮件预处理技术,包括邮件解析、中文分词和特征选取,并给出了朴素贝叶斯中文邮件过滤算法。邮件过滤中,合法邮件误判为垃圾邮件会给用户带来更大的损失,传统贝叶斯算法没有考虑到这种差异。在朴素贝叶斯算法基础上,引入了损失最小化的思想,提出了最小风险贝叶斯邮件过滤算法,该算法能根据用户的需求通过调整损失因子的大小,达到相应的过滤效果。在训练集数据不完备的情况下,贝叶斯分类器容易对新邮件产生分类错误,若这些分类错误的邮件过早地加入到分类器中会降低其分类性能。传统贝叶斯分类器要想学习新样本所包含的信息,必须重新学习全部样本,这样每学习一次,都要耗费大量的时间。为解决这些问题,提出了基于用户反馈的贝叶斯增量学习算法,在最小风险贝叶斯分类器的基础上,自主选择学习新样本修正分类器,并给出了增量学习计算公式。使用JAVA语言实现了本文提出的算法,在中国教育科研网的中文邮件语料上测试了中文邮件过滤中特征数、损失因子等参数和过滤效果间的关系,得出了较优的参数设定。实验结果也表明改进的基于用户反馈的最小风险贝叶斯增量学习算法在性能上优于传统的贝叶斯邮件过滤算法。
其他文献
在Web服务技术中,UDDI注册中心为Web服务的发布和发现提供了一个公共平台。目前,越来越多的企业采用Web服务的方式进行企业业务集成,为此建立起了相应的UDDI注册中心,但是这
基于IPv4/IPv6双协议的网络传输平台是未来互联网发展的必经阶段,双栈协议模式下的服务器流量监测技术是网络安全技术基础之一,也是未来IPv6协议平台上主机安全技术的主要基
本系统是经过对现在网上销售市场进行实际情况调查,可行性分析、业务流程分析后设计的。   本系统除了通常网店具有的买卖功能外,另一特点在于可以为设计师提供在家工作的机
推荐系统已被广泛应用于许多领域,如购物、新闻、影视等,其核心算法的性能直接影响推荐的质量。以往模型多采用相似度、标签、规则、群体智能或者物理学等方法。随着用户与物品
多核是当前处理器发展的重要趋势,多核的应用也日益普及。共享cache由于能充分利用容量资源等优点而被很多的多核处理器采用。但是各核竞争使用共享cache空间会出现性能干扰问
近年来,移动互联网成为人们日常生活的丰富延伸,随着智能手机的功能日益强大,它们能完成的工作也越来越多,例如拍摄照片、定位导航、浏览网页,发送电子邮件、支付账单等。用户在享
随着分布式应用的飞速发展,计算机安全的研究也从传统的主机安全技术转移到了新兴的网络安全技术上。今天的计算机系统既继承使用了访问控制技术为核心的传统计算机安全技术来
目前的信息检索工具主要是基于关键词匹配或内容分类目录进行查找,很少做进一步的智能化处理。因此,反馈给用户的是简单的相关信息,无法满足用户的检索要求。本体论是对信息
格式化文档漏洞的逐渐增多使得恶意文档越来越多地被用来攻击,恶意文档具有隐蔽性强、破坏性高、检测难度大等特点。本文通过对恶意文档的攻击方式、组成结构和攻击代码所采用
狼的存在,马鹿开始选择锻炼奔跑,自然选择会让孱弱的个体在竞争中被淘汰,留下的狼和鹿都越来越矫健。网络安全技术亦是如此,没有免杀技术而只有反病毒的世界,所谓“发展”和“提高