日地空间系统领域科学数据检索模型研究

来源 :中国科学院大学 | 被引量 : 1次 | 上传用户:woaidadada
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日地空间系统科学是研究太阳、太阳到地球之间的行星际空间和地球空间中自然现象及其规律的学科,其数据具有体量巨大、种类繁多、结构复杂的特征,不同概念、不同事件之间的相互关联为该领域内的科学数据检索提出了很高的要求。然而目前该领域内主流数据发布与共享系统中的检索模块依然以基于传统的关键词检索技术为主,技术上严重落后于信息检索和自然语言处理领域中的主流技术,从而严重影响其检索结果的质量。本文提出的检索模型是在对日地空间学科元信息提取基础上,使用文本处理的方法将提取信息转换为词项-文档矩阵,进一步使用潜在语义索引技术对其进行分析,计算出检索条目与不同数据集的语义相关度,从而可以根据语义相关度向用户推荐科学数据,同时,本模型也可以根据用户对检索精度和广度上的不同需求,分别执行精确检索和语义检索两种模式来保证结果的满意度。首先,本文通过调研国内外主流的日地空间系统领域科学数据发布系统,并有针对性地对各系统中的检索模块进行重点分析,了解其背后的技术思路,并通过文献调研获取科学数据检索领域最近的技术进展,得出了改进日地空间领域科学数据检索技术的必要性,随后通过对日地空间领域科学数据特征以及科学数据标准规范的分析,更加明确了检索模型的应用需求。其次,本文对主流的信息检索技术进行研究,并着重调研了基于语义的检索技术,在此基础上提出了面向日地空间领域科学数据集合的检索模型,该模型由信息提取模块、向量化模块、语义降维模块构成,分别负责科学数据核心描述信息提取、核心描述信息文档向量化处理以及文档语义空间降维的工作,在三个子模块的基础上,检索模型针对后期可能出现的检索集合变动设计了高效的更新机制,确保检索模型的运行效率。然后,本文根据前文提出的检索模型开发了检索原型,并设计实验对检索模型的性能进行测试,通过实验结果的对比分析展示了检索模型在准确率、召回率、语义相关性以及检索效率方面的良好性能。最后,本文总结了已完成的工作内容,并提出下一阶段的工作展望。该模型经过与基于关键词等传统检索模型的实验对比,其召回率明显优于传统方法,且具有很好的准确率。该模型同时支持对科学数据进行语义标注和关键词提取,亦可适用于其他领域科学数据检索,具有良好的应用价值和潜力。
其他文献
针对字库创作和书法自动生成的应用背景,本文对汉字笔画匹配和轮廓提取的方法进行了研究,能够有效建立参考笔画和输入图像笔段路径间的对应关系,有利于字符生成时笔画的选取
随着计算机网络的不断发展,网络安全也面临非常大的挑战。网络上的主机和服务器面临不同目的的攻击的威胁。在这些攻击中,分布式拒绝服务攻击是一种常见的而且十分有效的攻击方
随着网络技术的飞速发展,盗版视频日益猖獗,数字版权保护变得至关重要。作为加密技术和数字水印的替代方案,基于内容的拷贝检测(CBCD)得到了越来越多的关注。然而,拷贝检测并
视频目标跟踪是计算机视觉研究的重要方向之一,在智能交通系统、人机交互、机器人导航和智能视频检索等领域有着广泛的应用。然而,由于复杂背景、遮挡、光照变化等诸多因素的影
随着大数据时代的到来,来自互联网及生活中的海量多源异构数据正以前所未有的速度产生并积累,这些数据之间存在着紧密的关联性,如何对其进行有效地分析和挖掘是目前工业界和学术
随着遥感技术和航天事业的不断发展,遥感图像处理的应用需求越来越大,技术要求越来越高,而图像配准作为其中一项重要的技术,同样存在高需求和高技术要求的问题。  图像配准是指
为解决大量机械总加工的单件和小批量生产的自动化难题,上世纪50年代出现了数控机床。它综合应用了电子、计算机、检测、自动控制和机床结构设计等各个技术领域的众多成就。数
合成孔径雷达干涉测量技术(Synthetic Aperture Radar Interferometry,简称InSAR)是新近发展起来的空间遥感技术,它是传统的SAR遥感技术与射电天文干涉技术相结合的产物。通过对
随着虚拟机技术的逐渐成熟和广泛应用,虚拟化平台上的安全问题也逐渐显现。作为最常见的资源保护手段之一,访问控制机制在虚拟化平台上的实现已经成为一种必要的手段。但现有的
随着生物信息学的蓬勃发展和计算机技术的不断进步,生物分子的三维结构显示对于生物信息的分析起着越来越重要的作用。生物分子结构可视化的目的在于借助计算机图形学及可视化