桌面英文科技文献元数据抽取、关联及检索系统设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:godsayyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献是一种特殊的信息载体,其内容反映了相关学科和技术门类的发展过程及前沿水平。如何对大量的科技文献进行有效的检索和管理是关系到科研人员学习和工作效率的重要问题。本文在对当前相关技术和类似系统充分调研的基础上,描述了桌面英文科技文献元数据抽取、关联及检索系统的设计思路和实现方法,重点关注于科技文献元数据的提取方法、索引组织的建立及其在引文关联和检索导航中的应用。 在科技文献元数据提取部分,为了保证算法的鲁棒性和精度,本文采取了机器学习与规则方法相结合的思路提取科技文献的元数据信息。以基于组块的标题识别为重点,本文在各类重要元数据提取的关键步骤使用了支持向量机,实现了文献元数据的准确提取。 在索引组织方面,本文通过利用高效的Lucene检索工具包,对文献全文和各类元数据建立倒排索引结构,实现对较大规模文献集的高效全文检索和元数据检索服务。 在元数据提取和高效索引的基础上,本文通过在参考文献中发现引用文章标题的方式实现文献间的关联关系发现,建立科技文献间的引用关联有向图结构,实现相关文献间的检索和关联导航。 本文最终实现了一套完整的系统,该系统采用了准确鲁棒的英文科技文献元数据提取算法,具有简洁高效的索引结构,对引文间的关联关系描述准确,适合于桌面应用的任务。本文相关研究工作可应用于数字图书馆和数据挖掘等领域,系统本身具有较高的实用价值。
其他文献
本文综述了生物固氮作用、自生固氮菌的主要类群、多相分类技术的研究进展,鉴定了13株自生固氮菌,其中包括对曾经被定名的AS1.1761、DSM1277和DSM2457进行重新鉴定。论文研究工
在集成电路的设计领域,以IP核生成与复用技术、软硬件协同设计技术、基于平台设计技术和可测性设计和验证技术为支撑的片上系统SoC的设计方法成为增大设计集成度、降低产品功
该文针对高动态环境带来的宽频带和频率斜升问题进行研究,提出了并行多通道快速捕获的高动态GPS接收机设计方案,完成了C/A码GPs接收机样机的调试.论文的主要工作包括以下几个
先天性心脏病(congenital heart disease,CHD)是青少年儿童的一种高发疾病。心音信号是人体最重要的生理信号之一,它含有心脏各个部分如心房、心室、大血管、心血管及各个瓣膜
传统的无线电调频通信系统功能单一,硬件依赖性强,占用体积大,可扩展性差。软件无线电技术采用通用的可编程能力强的DSP和CPU器件代替传统的专用数字电路,能够解决传统调频通
软件无线电是一门新兴的无线通信技术,强调开发最简单的硬件平台作为通用平台,通过软件的升级、重配置实现无线电各种通信功能,这种设计的新思路得到了世界各国广泛的认可。
压缩场式半实物仿真系统属于机械式目标仿真器,它通过机械运动的方法,使射频辐射源相对于导引头作空间角度运动,从而实现导弹与目标之间的互动仿真,尽管不能实现复杂目标、多目标
本文对多粒度光交换网络中关键问题进行了研究。主要内容及结果如下: 1.针对现有的两类多粒度交换节点(MG-OXC)的不足,提出了两种两层MG-OXC结构:串连型和反馈型两层MG-OXC,同
软件无线电基于通用的可编程硬件平台,易实现不同通信系统之间的兼容,符合通信技术的发展趋势,已成为通信系统研究的热点。作为其关键技术之一的调制解调一直是一个重要的研
空间数据系统是空间任务中最关键的部分之一,它提供遥控、遥测、跟踪、导航、有效载荷数据获取、处理、存储、管理、通信传输等一系列重要功能。面对不断增强的电子侦察和对抗
学位