论文部分内容阅读
日地空间系统科学是研究太阳、太阳到地球之间的行星际空间和地球空间中自然现象及其规律的学科,其数据具有体量巨大、种类繁多、结构复杂的特征,不同概念、不同事件之间的相互关联为该领域内的科学数据检索提出了很高的要求。然而目前该领域内主流数据发布与共享系统中的检索模块依然以基于传统的关键词检索技术为主,技术上严重落后于信息检索和自然语言处理领域中的主流技术,从而严重影响其检索结果的质量。本文提出的检索模型是在对日地空间学科元信息提取基础上,使用文本处理的方法将提取信息转换为词项-文档矩阵,进一步使用潜在语义索引技术对其进行分析,计算出检索条目与不同数据集的语义相关度,从而可以根据语义相关度向用户推荐科学数据,同时,本模型也可以根据用户对检索精度和广度上的不同需求,分别执行精确检索和语义检索两种模式来保证结果的满意度。首先,本文通过调研国内外主流的日地空间系统领域科学数据发布系统,并有针对性地对各系统中的检索模块进行重点分析,了解其背后的技术思路,并通过文献调研获取科学数据检索领域最近的技术进展,得出了改进日地空间领域科学数据检索技术的必要性,随后通过对日地空间领域科学数据特征以及科学数据标准规范的分析,更加明确了检索模型的应用需求。其次,本文对主流的信息检索技术进行研究,并着重调研了基于语义的检索技术,在此基础上提出了面向日地空间领域科学数据集合的检索模型,该模型由信息提取模块、向量化模块、语义降维模块构成,分别负责科学数据核心描述信息提取、核心描述信息文档向量化处理以及文档语义空间降维的工作,在三个子模块的基础上,检索模型针对后期可能出现的检索集合变动设计了高效的更新机制,确保检索模型的运行效率。然后,本文根据前文提出的检索模型开发了检索原型,并设计实验对检索模型的性能进行测试,通过实验结果的对比分析展示了检索模型在准确率、召回率、语义相关性以及检索效率方面的良好性能。最后,本文总结了已完成的工作内容,并提出下一阶段的工作展望。该模型经过与基于关键词等传统检索模型的实验对比,其召回率明显优于传统方法,且具有很好的准确率。该模型同时支持对科学数据进行语义标注和关键词提取,亦可适用于其他领域科学数据检索,具有良好的应用价值和潜力。