论文部分内容阅读
1986年Don R. Swanson首次提出了基于非相关文献的知识发现法。时至今日,该方法在发现过程的自动化方面已经取得了很大的进步。但是,分析目前国内外研究成果表明,该方法在理论基础、领域与数据源、发现过程与方法以及评价等方面均存在着尚待解决的问题。本文在对非相关文献知识发现的理论基础进行探讨,对现有的非相关文献知识发现方法深入研究的基础上,针对目前该方法存在的主要问题:中间集过于庞大、准确率低,提出以提高中间集质量为主要研究目标,沿着其形成的前过程,即初始集的结构及过滤以及中间集本身的质量,即B的排序两条主线,提出具体的方法改进策略。同时,利用时序分析评价法对改进后方法的整体有效性进行验证。
本文的研究工作主要包括以下四个方面:
(1)对非相关文献知识发现的理论基础与关键技术进行了初步研究。理论基础方面,本文提出检索理论、文献计量学理论与逻辑学理论是非相关文献知识发现的理论基础。关键技术方面,提出初始集的构建技术、概念表达与抽取技术以及中间集的排序与修剪技术。
(2)对初始集的结构及过滤方法进行了研究。主要包括两个部分:第一部分是对初始集的结构,即对书目数据库表征文献主题的标题、文摘和MeSH字段,采用定量和定性分析方法对标题对文摘的替代效果、标题与MeSH对文摘的替代效果,标题与文摘对MeSH的替代效果进行了比较分析,试验结果综合表明标题与MeSH对文摘具有较好的替代效果。第二部分提出基于副主题词的过滤方法和基于共现语义群的过滤方法,并采用对照试验的方法验证其对中间集的影响效果。
(3)对中间集的排序方法进行了研究。主要包括两部分,第一部分是提出双向词频统计的排序方法。选择与低频B相关联的A或C进行分析,试验证明了低频B的意义。第二部分提出基于MeSH加权的排序方法,具体包括基于共有MeSH密度的加权和基于文献内聚度的加权。采用对照试验的方法验证其排序效果。
(4)验证上述改进方法的整体有效性。基于上述改进方法,构建了非相关文献的知识发现的流程。利用该流程,采用与Swaonson早期发现相一致的主题、数据源和时间段进行试验,对其发现结果利用时序分析方法进行评价。