论文部分内容阅读
新疆互联网的起源可以追溯到1993年X.25网络的成功建设。经过近20年的发展,新疆互联网网络规模迅速扩大,新疆少数民族语言的Web网页数量呈现指数级的增长,所以针对维吾尔搜索引擎的研究越来越受到人们的关注。本文首先介绍了通用搜索引擎和主题搜索引擎的概念及相关的技术。在分析了不同主题爬虫所存在问题的基础上,编写了一种基于增量同生主题模型的维吾尔文网络爬虫,对主题敏感爬行算法进行了改进。总结起来,本文主要的工作可以归纳为以下几点。1.主题相关度判定算法的改进对几种相关度判断算法进行了探讨,编写了一种基于增量同生主题模型的维吾尔文网络爬虫,它在爬行的过程中不断利用相关度高的锚文本补充关键词主题特征向量库,用关键词增量主题特征向量库描述关键词的应用场景、语境。减少了不相关网页的下载量,提高了主题爬虫的抓取精度。2.网页优先级算法改进探讨分析目前使用较多的PageRank算法、hilltop算法、hits算法的优缺点,我们提出了 IC_Topic Sensitive PageRank算法对原始PageRank算法进行改进,该算法考虑了网页之间的相互链接关系,并且使用增量主题特征向量库描述应用语境来确保网页与主题的相关性。并对IC_Topic Sensitive PageRank进行理论分析,对今后维吾尔网页优先级计算具有一定的参考意义。3.主题搜索引擎系统的实现我们利用java实现多线程的维吾尔主题网络爬虫来收集网络信息资源;利用MySQL来建立信息数据库,保存分析后的网络信息;利用Lucene为收集的本地信息资源建立独立的索引库,并且提供搜索服务;使用DWR和servlet技术编写用户界面和动态生成搜索结果页面;使用Tomcat5.5本地服务器调试整个系统,并提供Web服务。最后整个系统通过测试实现了预期的搜索目的,基本满足了设计需求。