学术隐蔽网信息采集引擎的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:fionazj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络中存在两类信息资源。一类是利用传统的搜索引擎,可通过爬行超链接获取并索引的信息资源,将其称为可见网或表层网。与此对应,网络中还存在另一类信息资源,这类资源对基于链接爬行的搜索引擎是屏蔽的,其数据保存在网络数据库当中,只有当用户提交检索请求后才能够取出,并以动态生成的页面方式展示出来。由于此类资源无法被传统的搜索引擎发现,故将其称为隐蔽网或深层网。 学术隐蔽网(AIW)由所有与学术相关的并且不能被传统因特网搜索引擎发现的数据库和数据仓储组成,是隐蔽网的一个子集。学术隐蔽网向科研人员、图书馆员、信息专业人员以及其他的学术研究者提供相关的科技信息,包括文献、图书、开放获取文档、实验数据、新闻动态等等。学术隐蔽网具有容量大、专业性强、实时更新、不易获取、不易监测的特点。开发学术隐蔽网信息采集工具对于提高图书馆资源供给能力、满足师生对信息资源深层次的需求、监测与评价网络科技信息具有重大意义。 本文通过调查分析国内外对学术隐蔽网相关工作的研究现状,设计并实现了一个高效、自动、可扩展的学术隐蔽网信息采集引擎。针对学术隐蔽网信息采集中的特点与难点,重点解决了三个方面的关键问题: (1)AIW信息获取 当前相关研究所采用的检索词集生成方式不能较好地反映学术热点的变化,为此,本文提出了一个基于查询日志统计的检索词集动态生成和维护算法。该算法能够较好地体现用户兴趣和学术热点的变化。同时,本文设计实现的请求发送器能够通过浏览器捕获检索请求、分析参数,利用检索词集改写参数值并发送请求,较好地解决了学术隐蔽网的信息获取问题。 (2)AIW信息监测 目前对隐蔽网的研究普遍缺乏对学术隐蔽网增量采集相关的问题的讨论,忽略了学术隐蔽网实时更新的显著特性。本文详细讨论了学术隐蔽网增量采集的相关问题,包括增量采集的对象、周期、数量,并给出一个较为理想的解决方案。 尤其针对非合作环境中增量采集的复杂性,本文提出了基于二分逼近的周期估计算法,自动调整增量采集周期,并且结合使用基于日志分析的动态检索词集进行增量探测,实现对学术隐蔽网信息监测。 (3)AIW数据提取 通过借鉴前人对网页信息提取的相关工作,比较各个方法的优劣,本文综合利用HTML标签分析技术和页面内容特征识别技术,针对学术隐蔽网自身的特点以及学术隐蔽网信息采集的目的,对结果列表层和记录细览层两个层次进行数据提取,并自动生成对应的正则表达式包装器,实现对AIW数据提取。 对于学术隐蔽网信息采集引擎设计和实现的其他细节问题,本文也做了全面的研究和讨论。
其他文献
随着Web的快速发展和Web信息的爆炸式增长,越来越多的Web用户使用搜索引擎来寻找想要的信息,搜索引擎也就扮演着越来越重要的角色。为了能将更好的搜索结果提供给用户,大部分搜
高性能计算是当前科学研究的重要手段之一。受到功耗的限制,计算机已经不能通过单纯的提高频率来获得性能的提升。多核成为计算机发展的重要方向,随之而来的复杂体系结构和编程
搜索引擎在人们生活中起着越来越重要的作用,已经成为网民获取信息的主要来源和企业营销的重要手段。在利益的驱使下,越来越多的网站为了获得在搜索引擎中的展现机会,提高在搜索
人们对图像高质量的喷印需求不断增长使得喷墨技术不断发展,喷墨印刷越来越朝着高速和精确的方向发展,高精度喷墨不断在新的领域得到应用,喷墨性能和质量的检测也随之成为一个越
“存储墙(Memory Wall)”问题是制约计算机性能的主要瓶颈之一。在集成电路工艺进步的促进下,计算机系统结构发生巨大变化。多核处理器成为计算机系统结构发展的必然趋势,需要
软件复用是提高软件开发效率和质量的一条现实可行的途径,软件资产库是对可复用软件资产进行管理,对软件资产的复用过程提供支持的基础设施。多年来,软件资产库的研究已经积累了
发布/订阅系统使得用户能够对事件(发布消息)保持长期、即时的关注(订阅请求)。随着越来越多的消息使用XML格式进行发布,高效地实现XML发布/订阅系统能够满足诸如新闻订阅、竞
目前,信息检索技术正在飞速发展,人们对信息检索系统的检索结果的要求越来越高。传统信息检索方式下,由于信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,难以实现信
对互联网在中国大陆部分自治系统一级的拓扑结构进行较为完整和准确的发现是互联网相关研究中的一项基础性工作。这项工作在基于互联网的分布式系统,内容递送网络的服务器选择
近年来,大数据以数据量大、数据类型多样、产生与处理速度要求快、价值高的4V特性成为工业界和学术界的研究热点。由于传统软件系统难以在可接受的时间范围内处理大数据,工业界