非相关文献知识发现的方法改进研究

来源 :中国科学院文献情报中心 | 被引量 : 0次 | 上传用户:hulan2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1986年Don R. Swanson首次提出了基于非相关文献的知识发现法。时至今日,该方法在发现过程的自动化方面已经取得了很大的进步。但是,分析目前国内外研究成果表明,该方法在理论基础、领域与数据源、发现过程与方法以及评价等方面均存在着尚待解决的问题。本文在对非相关文献知识发现的理论基础进行探讨,对现有的非相关文献知识发现方法深入研究的基础上,针对目前该方法存在的主要问题:中间集过于庞大、准确率低,提出以提高中间集质量为主要研究目标,沿着其形成的前过程,即初始集的结构及过滤以及中间集本身的质量,即B的排序两条主线,提出具体的方法改进策略。同时,利用时序分析评价法对改进后方法的整体有效性进行验证。   本文的研究工作主要包括以下四个方面:   (1)对非相关文献知识发现的理论基础与关键技术进行了初步研究。理论基础方面,本文提出检索理论、文献计量学理论与逻辑学理论是非相关文献知识发现的理论基础。关键技术方面,提出初始集的构建技术、概念表达与抽取技术以及中间集的排序与修剪技术。   (2)对初始集的结构及过滤方法进行了研究。主要包括两个部分:第一部分是对初始集的结构,即对书目数据库表征文献主题的标题、文摘和MeSH字段,采用定量和定性分析方法对标题对文摘的替代效果、标题与MeSH对文摘的替代效果,标题与文摘对MeSH的替代效果进行了比较分析,试验结果综合表明标题与MeSH对文摘具有较好的替代效果。第二部分提出基于副主题词的过滤方法和基于共现语义群的过滤方法,并采用对照试验的方法验证其对中间集的影响效果。   (3)对中间集的排序方法进行了研究。主要包括两部分,第一部分是提出双向词频统计的排序方法。选择与低频B相关联的A或C进行分析,试验证明了低频B的意义。第二部分提出基于MeSH加权的排序方法,具体包括基于共有MeSH密度的加权和基于文献内聚度的加权。采用对照试验的方法验证其排序效果。   (4)验证上述改进方法的整体有效性。基于上述改进方法,构建了非相关文献的知识发现的流程。利用该流程,采用与Swaonson早期发现相一致的主题、数据源和时间段进行试验,对其发现结果利用时序分析方法进行评价。  
其他文献
SaaS在中国电子商务企业中的应用越来越多,但在电子政务中的应用却凤毛麟角.分析我国电子政务应用SaaS的可能性,提出SaaS模式下的电子政务系统框架设计方案,并指出我国电子政
《旧时河南县级图书馆寻踪》是详细叙述前河南省范围内的第一部科学系统的各县级图书馆发展历程的汇编总结,这是一部厚重翔实、立论严谨、工程巨大、范围广博的百年基层图书
目的对甘肃省妇女子宫颈人乳头瘤病毒(human papillomavirus,HPV)的感染情况和其高危亚型型别分布进行统计分析,发现其区域性特征,为HPV疫苗的研制及为甘肃省HPV相关研究提供
《滂喜斋藏书记》是一部具有较高水平的版本目录学专著,是叶昌炽馆潘祖荫家为滂喜斋藏书所做编目,初名《滂喜斋书目》,后改名《滂喜斋读书记》。滂喜斋所藏之书多得自怡王府
自主创新科研需要探索现有领域的趋势、结构、变化以及潜在的问题等,而对领域主题结构的分析是研究这些问题的基础。本论文研究的目的就是对现有的主题结构构建技术进行优化研
Mashup作为一种新型的Web应用,通过开放的访问接口、各种Web feed等方式获取来自不同Web在线资源的数据和功能,形成新的Web应用,创造出一种全新的综合体验。Mashup不仅实现了多
随着我国政府信息化建设的全面展开,以及打造服务型政府的政府职能转变,政府信息资源的地位和作用将更加引人注目。政府需要将自身所拥有的信息进行合理有效的信息资源管理,包括
美国科学情报研究所(The Institute for Scientific Information-ISI)基于www超链接特性,建立了一个以知识为基础的学术信息资源整合平台(ISI web of Knowledge-WOK),是一个
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
公共档案馆信息服务水平的提高吸引了更多的人关注公共档案馆建设。在品牌战略大行其道的时代背景下,应把公共档案馆信息服务品牌化,通过公共档案馆信息服务品牌战略的制定和