基于领域本体的论文检索研究与实现

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:luluwm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的迅速普及应用,绝大多数的学术论文以电子文档的形式进行使用和传播。用户对学术论文的检索和获取也越来越多地依赖于网络上的学术搜索引擎、全文数据库和论文索引平台,如“Google Scholar学术搜索”、“中国期刊网(CNKI)”、“万方数据知识服务平台”等。在数量庞大、迅速更新的学术文献信息面前,传统的信息检索技术已经很难适应发展的需要。如何在数量庞大的论文库中快速有效地检索出用户所需要的文档,是当前信息检索研究中非常有实用价值的课题。   传统的论文检索系统主要采用基于关键词匹配的信息检索技术,针对论文的特定字段或者全文进行关键词匹配,能够满足面向用户的按照关键词匹配的文档检索需求。然而基于关键词方法存在信息表达和检索方面的缺陷,面对海量的论文文档,检索系统只能在“词语”的层次上表达文档和建立索引进行检索,难以得到较高的检索性能。语义Web和本体技术的发展为解决这一问题提供了新思路——语义检索。语义检索是基于知识和语义层面的检索技术,弥补了传统的基于关键字信息检索技术缺乏“语义理解”的缺陷,能够更加准确地针对用户需求进行搜索,达到更好的检索性能。其中本体是语义检索中语义表达的核心,通过对领域知识进行概念化和模型化,精确描述概念以及概念之间的关系,使得概念和关系在共享范围内有着明确统一的定义。本体技术的运用使得文档表达和检索从基于关键词层面提升到基于语义层面,从而能够获得更高的准确率、召回率和综合指标。   本文围绕领域本体在信息检索领域的运用,在分析现有检索算法的基础上,从文档语义表达和基于语义的文档检索上改进,提出一种基于领域本体的论文语义检索方法。以计算机科学领域专业论文检索为例,首先构建包含学科领域概念和概念之间关系的领域本体;然后利用领域本体语义信息对论文文档内容的进行信息提取和语义标注,进一步构建表达论文概念信息和知识结构的语义网络;在基于语义网络表达基础上,对用户查询进行基于语义的文档检索匹配;最后采用语义相关度算法度量查询与论文的相关性,对检索结果进行相关度排序。为验证本文算法的有效性,基于JSP技术,利用开源工具Protégé、Jena、Lucene实现了实验系统SPR,并设置实验数据和检索条件进行验证。结果表明,本文方法在召回率,准确率和综合性能均有明显提高,能有效提高论文检索的质量。
其他文献
几乎所有的恶意程序样本都被一个可执行的保护包裹,为了静态分析恶意程序样本,必须先移除可执行保护(称之为软件反保护)。而与此正好相反,为了保护软件的核心技术不被逆向工程和未
联机分析处理(Online Analytical Processing,OLAP)是数据仓库系统中的一种多维数据分析技术,操作的对象是多维数据集。联机分析处理服务器与多维数据展示工具是联机分析处理系
随着信息化进程的不断扩大,人们将面对越来越多需要处理的数据。如何在这样海量的数据信息中便捷快速而又准确地获取所需是其中一个人们所关心的话题,搜索引擎也因此应运而生。
随着数据呈现海量式的增长方式,数据规模和数据维度都在不断增加,数据的冗余问题越来越严重,而且用户对于数据的需求也逐渐出现差异化,不同部门或者研究者对于数据的采集及处
无线传感器网络是一种由带着无线通信装置的终端节点组成的多跳的、对等的自治系统。由于其无需架设网络基础设施,组网快速灵活,具有抗毁性强,低成本和易于维护等优点,在战场通信
图像的颜色渐变,是指图像像素点的RGB颜色值按照一定的递增或者递减或者其他有规律的形式进行变化的一种方式。图像的颜色渐变是图像的重要模式之一,许多自然图像和计算机图片
揭示人类视觉机理是智能科学的重要任务之一,动态视野是评价视觉特征,进而研究视觉机理的一项重要指标,也是实现机器视觉的一个基本参数。准确评价动态视野对人脑功能、视觉机理
行人检测是计算机视觉领域重要的研究课题,由于其广泛的应用场景和巨大的商业价值,一直以来都是研究的热点。  虽然行人检测经过了长期的发展,已经取得了一些进展,但其性能距离
文档是信息的载体,互联网的飞速发展使得信息传播方式发生了变革,传统的纸质文档由于信息传播不便、难于保存和管理、信息检索受限,正在日益被电子文档替代。电子文档不但节约了
视频监控系统是视频技术与网络技术高速发展汇聚而成的具有变革性的信息系统。存储和数字采集技术的发展为视频监控系统的快速发展奠定了坚实的基础。视频监控系统在城市管理