论文部分内容阅读
                            
                            
                                随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,其中所包含的各种信息越来越多,互联网已经成为了人们获取信息的一个主要渠道。然而,用户有的时候只是知道自己所要寻找信息的关键词,而不知道具体的网页链接(URL)。因此,开发出一种工具来帮助用户寻找自己需要的信息成为了自然语言处理的一个研究方向。于是,受到信息检索的启发,有研究机构发明了搜索引擎,以方便用户从网络中搜索到自己所需要的信息。搜索引擎的出现大大的方便了用户从互联网上查找信息的过程,节约了用户的处理时间,受到了互联网使用者的欢迎。互联网上也出现了很多著名的搜索引擎,如针对多种语言的Google搜索引擎和针对汉语的Baidu搜索引擎等。然而,受到商业利益的驱使,有些网站为了提高自己的点击率,经常大量转载别的网站的文章;除此之外,各大网站也会争相报道发生的热门事件和大众感兴趣的焦点话题,这样不仅增加了搜索引擎处理的负担,也使得搜索引擎经常返回很多内容相同但是只是链接不同的结果,降低了搜索引擎返回结果的有效性,也增加了用户查找到自己需要的信息的时间。去除重复的网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了两种较为有效的网页查重算法:基于高频词的网页查重算法和基于布尔模型的网页查重算法。基于高频词的网页查重算法根据特征的频率选择特征,组成特征串,来判别重复网页。而基于布尔模型的网页查重算法则是选择布尔模型来表示文本,同时将其运用到了文本的汉明距离计算之中,有效的减少了文本之间两两互相比较的次数。本文主要进行了以下几个方面的工作:1分析了重复网页产生的原因,并且总结了针对各种不同的重复,所提出的各种不同的网页查重算法。2在分析比较各种关于‘重复’定义的基础上,根据Pugh的定义设计了基于布尔模型的网页查重算法。3.实际验证了基于布尔模型的网页查重算法,并且进行了测试,证明该算法取得了较好的结果。