垂直搜索引擎关键技术研究及分布式实现

来源 :东南大学 | 被引量 : 8次 | 上传用户:louisvu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垂直搜索引擎的出现是互联网服务向多样化和专业化发展的必然趋势。垂直搜索引擎的发展建立在通用搜索引擎的基础上,提供精细化的垂直领域信息挖掘与搜索服务。本文进行垂直搜索引擎关键技术及分布式研究,从文档主题分类技术、垂直资源挖掘、主题Ranking模型研究以及分布式设计四个方面展开研究工作。文档主题分类技术研究着重于借助LDA模型挖掘文档的主题信息、识别文本的语义,强化搜索引擎的理解能力。而垂直资源挖掘研究则重点关注网络的结构信息和近邻信息,并进行主题网络爬虫设计。主题Ranking模型研究旨在强化垂直搜索引擎的主题偏向性,保证搜索结果更具有专业性。研究分布式垂直搜索引擎设计则是为了使系统能够适应实际的大数据应用场景而提出分布式解决方案。本文首先阐述了垂直搜索引擎的研究背景、意义以及发展现状,并结合通用搜索引擎的技术背景对垂直搜索引擎的关键技术和技术特性进行了描述。本文将LDA模型应用于垂直搜索引擎中的主题资源挖掘和用户语义解读,研究了不同文档主题分布的训练语料库对LDA模型主题分类性能的影响。然后在LDA主题模型的基础上进行了拓展应用研究,基于贝叶斯公式提取主题种子词库,并研究得到了基于T-PMI的主题词扩展方法。垂直搜索引擎区别于通用搜索引擎的一大特点是搜索主题的确定性,主题先验信息可以帮助我们更好地理解用户查询,本文为此给出了一种主题分词算法,一定程度上解决了分词多义性的情况。其次,本文在Shark-Search算法和HITS算法的基础上改进得到了一种基于结构信息和近邻信息的链接分析算法,以此确立主题爬虫的方向和范围,并提出了自适应主题爬虫策略,可以在实际的爬取过程中,根据反馈调整爬虫的方向。本文在PageRank算法基础上引入了主题相关度,给出了主题敏感PageRank算法,该算法摒弃了随机游走模型,认为用户浏览行为应该具有主题导向,来自同一主题页面的链接更容易被用户点击到,因此该算法修正了PageRank算法的链接模型,增强了主题相关网页的优先级。最后本文设计了一种分布式垂直搜索引擎原型,对关键技术进行了分布式研究,提出了一种分布式主题爬虫框架,对分布式LDA算法的性能进行了验证,并在此基础上设计了分布式垂直搜索引擎的系统整体框架,同时实现了一个图书搜索实例。
其他文献
目的:分析镇江市流动儿童新生儿破伤风(NNT)的流行病学特征,为消除NNT提供科学依据。方法:利用描述流行病学方法分析镇江市2003--2010年流动儿童NNT监测资料。结果:镇江市2003—201
筒形阀是一种新型的水轮机进水阀,它与球阀或蝴蝶阀相比较有防止机组飞逸事故扩大效果明显、减轻导叶全关时导水机构的快速破坏并减少漏水量,以及动水开启方便、所需时间短等优
绿色消费,指没有污染,有益于身体健康,有益于生态平衡,有益于人的物质需要和精神需要的平衡的一种消费方式。目前,它已渗透到人们消费的各个领域,呈现出社会化、生态化与追求文化理
作为高灵敏度的分析仪器,电感耦合等离子体质谱(ICP-已被许多国家应用于环境监测中.本文综述了近年来电感耦合等离子体质谱在土壤样品分析测试中的应用,重点比较了土壤样品前
<正>ST段抬高型急性心肌梗死(STEMI)是冠状动脉急性、持续性的缺血引起的心肌坏死,是心血管疾病患者的主要死亡原因之一。STEMI患者应尽早予开通梗死相关动脉(IRA),恢复有效