基于查询扩展的主题爬虫研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:jmzsren1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息多元化的增长,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,用户对信息的需求更多的是针对受限领域和面向特定主题的。应对这种需求,需要分类精确、数据全面、更新及时的面向主题的搜索,主题爬虫就是主题搜索引擎的基础与核心。其基本思想是在爬行过程中按预先定义好的主题有选择的收集相关网页,即先确定搜索范围,再找到最相关的链接,避免下载不相关的网页。因而如何为领域、主题相关性的判定制定准确的规则;如何利用丰富的上下文,理解用户的输入语义,并能返回准确的信息,成为主题爬虫系统的研究重点。 本文的研究内容主要包括: 首先,在分析现有主题爬虫搜索策略的优缺点的基础上,改进了主题爬虫系统的框架,并给出工作原理。 然后,建立基于词语共现的查询扩展算法,设计具有语义理解能力的主题爬虫。 接下来,改进现有的PageRank算法,将主题相关度的分析与排序算法结合起来,提出了主题敏感的FDC-PageRank算法计算网页优先级,实现从语义上分析的综合排序方法,提高主题爬虫爬行的精度。 最后,设计实现了实验原型系统FTSCrawler,通过在互联网上进行实验,检验了FTSCrawler的运行效果,并由此验证了本文所提出的基于词语共现的主题算法和主题敏感的FDC-PageRank算法的有效性。
其他文献
框架技术是很重要的软件重用技术,传统的开发模式已经不能满足大型Web应用系统的开发需求。Web应用框架可以提高Web应用系统开发的效率,虽然这在一定程度上限制了开发人员的
随着云计算的快速发展,学术界、工业界能够方便地获取较为低廉的计算、存储、网络等服务。然而,为云计算服务提供支撑的数据中心的正常运行需要消耗巨大的能耗值,随之带来的对能
随着计算机网络技术与多媒体技术的发展,远程教育已经成为改革开放传统教育模式的强大动力和有效手段。它突破传统学校教育方式的时空束缚,与课堂教育、广播教育、电视教育共
随着互联网的快速发展和网络技术的不断进步,一种基于移动Agent的分布式计算模式成为研究的重点。现阶段移动Agent系统并没有完善的安全保障机制。因此,安全性不足阻碍了移动
为了应对客户需求和相关政策的经常变化,提高市场竞争力,企业需要经常修改业务流程,这将耗费大量的资金、人力和物力。业务流程局部的修改会涉及到整个业务流程的配置,不合理的变
人脸识别因其在安全验证系统、信用卡验证、医学、档案管理、视频会议、人机交互、公安系统(罪犯识别等)等方面的巨大应用前景而越来越成为当前模式识别和人工智能领域的一个
对训练数据的建模是机器学习中的一个核心问题,本文将数据建模的两种经典方法——流形学习与统计学习作了结合,相互取长补短。在我们之前一些相关工作的基础之上,本文基于黎
随着卫星传感器质量和数量的不断保证,针对多光谱遥感图像的分类研究理论论证不断增加,相对于传统的遥感影像,多光谱遥感图像的波段信息丰富,空间信息明显充实。传统分类方法并不能很好反映多光谱遥感图像精准的地物特征,不能完善地物特征的分类。为了避免传统的分类方法的缺陷,本文采用集成学习分类方法研讨多光谱遥感图像的分类,并对多光谱遥感图像的纹理特征,分类特征的简化降维等关键问题进行了研究,具体的研究内容如下
被称为“第三利润源泉”的物流产业,在今天呈现加速发展的趋势。现代物流发展的目标是:有效的降低物流成本、提高物流效率,而这依赖于物流过程的合理性和流转的顺畅程度,这需
数据仓库作为一个数据集合,具有面向主题、集成、反映历史变化、相对稳定的特点,它的内容来自各种异构数据库的集成数据。数据仓库的本质是一个非常大的数据存储,但是面向主