论文部分内容阅读
伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势变的越来越严峻。所以迫切需要一个更优异的搜索服务,以提高搜索效率和保护网络作品版权。搜索引擎质量的好坏,对搜索引擎的使用用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标。对页面进行重要性评估并按重要性排序是搜索引擎排序算法要深入研究的最重要的问题之一。垂直搜索引擎应运而生,它把具体专业与搜索引擎结合起来,为使用者提供了更高的质量和更优质的服务。本文研究的主要内容是建立在网络文学发展的基础上,本文研究的核心技术是建立在搜索引擎发展的基础上。通过研究课题的背景和意义,并深入了解搜索引擎的发展史、垂直搜索引擎的技术现状以及搜索引擎未来的发展趋势等知识,为本课题的研究与实现奠定了良好的理论基础。本文首先讨论了垂直搜索引擎的概念和工作流程,在深入研究垂直搜索引擎原理的基础上,对于垂直搜索引擎所用到的核心技术,如网络蜘蛛、网络蜘蛛搜索策略、信息抽取技术、中文分词技术等,和垂直搜索引擎所需要的搜索引擎开源框架Nutch,进行了详细的介绍。其次,分析并研究了搜索引擎领域经典的两种网页排序算法:PageRank算法和HITS算法,联系当前互联网研究现状并结合所研究的课题方向,针对传统的PageRank算法存在的主题飘逸现象、网页权值分配不合理、偏重旧网页等现象,结合网页内容之间的相似度信息、网页页面结构和网页产生的时间等提出了一种改进的页面排序算法。改进算法加入了时间衰减因子,减少了主题漂移现象的发生,提高了查询的准确率。最后,本课题结合搜索引擎开源框架Nutch和改进后的网页排序算法,设计并实现了基于网络文学为主题的垂直搜索引擎原型系统。通过和主流搜索引擎的对比以及数据测试和仿真验证了系统的可行性与优越性。