论文部分内容阅读
随着网络技术的迅猛发展,Internet已成为当今世界上最大的信息库,也是全球范围内信息传播的重要渠道。由于Web本身的庞大性、动态性、异构性和半结构化等特点,导致了Web信息搜索的困难。目前人们从这些海量数据中查找有用信息,使用最多的就是网络搜索引擎,然而当前搜索引擎的检索效果很难使用户满意。作为知识挖掘中新的研究内容Web挖掘,由于其在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大的借鉴作用,所以通过应用Web挖掘技术,可以改善搜索引擎的检索性能。查准率是搜索引擎检索性能评价体系中的重要指标,它的高低直接影响用户对搜索引擎的满意度。课题旨在研究Web挖掘技术,并将其应用到搜索引擎中,找到提高搜索引擎查准率的方法。探讨了网络搜索引擎和Web挖掘的相关技术,重点研究了Web结构挖掘算法,分析了目前应用广泛的PageRank算法存在的问题,结合Web内容挖掘中的页面相似度改进了传统的PageRank算法,实验证明对算法的改进是有效的。在此基础上,改进了主题敏感的PageRank算法。通过一个小型Web结构图,阐述了改进的主题敏感PageRank算法是如何应用到搜索引擎中的。同时计算了搜索引擎在分别使用传统PageRank、主题敏感PageRank算法和改进主题敏感PageRank算法时的相对查准率。实验结果表明,针对不同的查询,改进的主题敏感PageRank算法使搜索引擎的相对查准率高于传统的PageRank算法和主题敏感PageRank算法,进而证明了改进的Web挖掘算法能够提高搜索引擎的查准率,改善搜索引擎的检索性能。