论文部分内容阅读
在网络中存在两类信息资源。一类是利用传统的搜索引擎,可通过爬行超链接获取并索引的信息资源,将其称为可见网或表层网。与此对应,网络中还存在另一类信息资源,这类资源对基于链接爬行的搜索引擎是屏蔽的,其数据保存在网络数据库当中,只有当用户提交检索请求后才能够取出,并以动态生成的页面方式展示出来。由于此类资源无法被传统的搜索引擎发现,故将其称为隐蔽网或深层网。
学术隐蔽网(AIW)由所有与学术相关的并且不能被传统因特网搜索引擎发现的数据库和数据仓储组成,是隐蔽网的一个子集。学术隐蔽网向科研人员、图书馆员、信息专业人员以及其他的学术研究者提供相关的科技信息,包括文献、图书、开放获取文档、实验数据、新闻动态等等。学术隐蔽网具有容量大、专业性强、实时更新、不易获取、不易监测的特点。开发学术隐蔽网信息采集工具对于提高图书馆资源供给能力、满足师生对信息资源深层次的需求、监测与评价网络科技信息具有重大意义。
本文通过调查分析国内外对学术隐蔽网相关工作的研究现状,设计并实现了一个高效、自动、可扩展的学术隐蔽网信息采集引擎。针对学术隐蔽网信息采集中的特点与难点,重点解决了三个方面的关键问题:
(1)AIW信息获取
当前相关研究所采用的检索词集生成方式不能较好地反映学术热点的变化,为此,本文提出了一个基于查询日志统计的检索词集动态生成和维护算法。该算法能够较好地体现用户兴趣和学术热点的变化。同时,本文设计实现的请求发送器能够通过浏览器捕获检索请求、分析参数,利用检索词集改写参数值并发送请求,较好地解决了学术隐蔽网的信息获取问题。
(2)AIW信息监测
目前对隐蔽网的研究普遍缺乏对学术隐蔽网增量采集相关的问题的讨论,忽略了学术隐蔽网实时更新的显著特性。本文详细讨论了学术隐蔽网增量采集的相关问题,包括增量采集的对象、周期、数量,并给出一个较为理想的解决方案。
尤其针对非合作环境中增量采集的复杂性,本文提出了基于二分逼近的周期估计算法,自动调整增量采集周期,并且结合使用基于日志分析的动态检索词集进行增量探测,实现对学术隐蔽网信息监测。
(3)AIW数据提取
通过借鉴前人对网页信息提取的相关工作,比较各个方法的优劣,本文综合利用HTML标签分析技术和页面内容特征识别技术,针对学术隐蔽网自身的特点以及学术隐蔽网信息采集的目的,对结果列表层和记录细览层两个层次进行数据提取,并自动生成对应的正则表达式包装器,实现对AIW数据提取。
对于学术隐蔽网信息采集引擎设计和实现的其他细节问题,本文也做了全面的研究和讨论。