论文部分内容阅读
垂直搜索引擎的出现是互联网服务向多样化和专业化发展的必然趋势。垂直搜索引擎的发展建立在通用搜索引擎的基础上,提供精细化的垂直领域信息挖掘与搜索服务。本文进行垂直搜索引擎关键技术及分布式研究,从文档主题分类技术、垂直资源挖掘、主题Ranking模型研究以及分布式设计四个方面展开研究工作。文档主题分类技术研究着重于借助LDA模型挖掘文档的主题信息、识别文本的语义,强化搜索引擎的理解能力。而垂直资源挖掘研究则重点关注网络的结构信息和近邻信息,并进行主题网络爬虫设计。主题Ranking模型研究旨在强化垂直搜索引擎的主题偏向性,保证搜索结果更具有专业性。研究分布式垂直搜索引擎设计则是为了使系统能够适应实际的大数据应用场景而提出分布式解决方案。本文首先阐述了垂直搜索引擎的研究背景、意义以及发展现状,并结合通用搜索引擎的技术背景对垂直搜索引擎的关键技术和技术特性进行了描述。本文将LDA模型应用于垂直搜索引擎中的主题资源挖掘和用户语义解读,研究了不同文档主题分布的训练语料库对LDA模型主题分类性能的影响。然后在LDA主题模型的基础上进行了拓展应用研究,基于贝叶斯公式提取主题种子词库,并研究得到了基于T-PMI的主题词扩展方法。垂直搜索引擎区别于通用搜索引擎的一大特点是搜索主题的确定性,主题先验信息可以帮助我们更好地理解用户查询,本文为此给出了一种主题分词算法,一定程度上解决了分词多义性的情况。其次,本文在Shark-Search算法和HITS算法的基础上改进得到了一种基于结构信息和近邻信息的链接分析算法,以此确立主题爬虫的方向和范围,并提出了自适应主题爬虫策略,可以在实际的爬取过程中,根据反馈调整爬虫的方向。本文在PageRank算法基础上引入了主题相关度,给出了主题敏感PageRank算法,该算法摒弃了随机游走模型,认为用户浏览行为应该具有主题导向,来自同一主题页面的链接更容易被用户点击到,因此该算法修正了PageRank算法的链接模型,增强了主题相关网页的优先级。最后本文设计了一种分布式垂直搜索引擎原型,对关键技术进行了分布式研究,提出了一种分布式主题爬虫框架,对分布式LDA算法的性能进行了验证,并在此基础上设计了分布式垂直搜索引擎的系统整体框架,同时实现了一个图书搜索实例。