垂直搜索引擎框架的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zxz66329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中大部分都是与用户查询所不相关的。用户现在已经对利用通用搜索引擎找到一个专门主题信息已经越来越困难了,通用搜索引擎已经不能满足大多数用户对寻找特定主题信息的需要。相比于通用搜索引擎,垂直搜索引擎搜索一个特定的行业、主题、形式内容(例如:旅游,电影,图片,博客,生活事件)、块数据、地理位置等等。这些内容通过通用搜索引擎无法找到或者很难找到。正是由于这个原因,垂直搜索的主题是与深层次的网络紧密相关的。本文先是讨论了搜索引擎的发展历史和垂直搜索引擎的特点,然后介绍了垂直搜索引擎的组成部分及其原理,分析了其相关技术的研究现状。接着本文提出了一种垂直搜索引擎框架,该框架基于目标数据模式的抓取策略。事先选取主题的种子网站,约定提取的网页链接和提取网页内容的规则,解决主题相关度的问题;同时由于我们仅限这些网站内容的抓取又能避免无关网页的下载,大大提高了抓取和更新效率,降低了复杂度。很显然,人工选择主题网站难免遗漏了许多有用的主题资源,所以本文对该策略提供了一个友好的扩展方式,能简单方便地增加系统的抓取资源,提高系统的资源覆盖率。最后我们基于该框架实现了一个有关科技项目和知识产权主题的垂直搜索引擎。
其他文献
本文的研究目的在于通过分析大规模搜索日志来理解搜索引擎用户的行为特征。通过设计和建立出具有16个一级分类和90个二级分类的Query分类体系,并在此基础上构建具有8.6万词的
随着计算机技术的发展,软件规模的不断扩大,软件的安全问题正成为业界日益关注的焦点。导致软件安全问题的根本原因是其中存在的脆弱性,而脆弱性的检测作为保障软件安全的有效手
操作系统是最基础的计算机软件之一,其可靠性、安全性、性能等对于整个系统的正常高效运转至关重要。操作系统的架构可以是宏内核的,也可以是微内核的。相比于宏内核操作系统
软件功能在不断增强的同时,软件的庞杂程度也在提高,这样就无可避免的带来软件漏洞。软件漏洞攻击带来的巨大经济损失,迫切需要我们对各种漏洞攻击的方式进行剖析,从而深刻理解攻
多媒体包括文字、图像、图形、音频、视频等多种媒体形式。多媒体处理技术相应的涵盖了以上各种媒体形式及其集合的相关处理技术。本报告主要汇报四个多媒体处理技术,包括两
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估
在计算机网络技术和无线通信技术的大力推动下,互联网正在朝数据通信网络、蜂窝无线网络和广播电视网络三网融合的方向演进,伴随出现了异构网络环境、多模通信终端和多样性的应
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种