论文部分内容阅读
科技文献是一种特殊的信息载体,其内容反映了相关学科和技术门类的发展过程及前沿水平。如何对大量的科技文献进行有效的检索和管理是关系到科研人员学习和工作效率的重要问题。本文在对当前相关技术和类似系统充分调研的基础上,描述了桌面英文科技文献元数据抽取、关联及检索系统的设计思路和实现方法,重点关注于科技文献元数据的提取方法、索引组织的建立及其在引文关联和检索导航中的应用。
在科技文献元数据提取部分,为了保证算法的鲁棒性和精度,本文采取了机器学习与规则方法相结合的思路提取科技文献的元数据信息。以基于组块的标题识别为重点,本文在各类重要元数据提取的关键步骤使用了支持向量机,实现了文献元数据的准确提取。
在索引组织方面,本文通过利用高效的Lucene检索工具包,对文献全文和各类元数据建立倒排索引结构,实现对较大规模文献集的高效全文检索和元数据检索服务。
在元数据提取和高效索引的基础上,本文通过在参考文献中发现引用文章标题的方式实现文献间的关联关系发现,建立科技文献间的引用关联有向图结构,实现相关文献间的检索和关联导航。
本文最终实现了一套完整的系统,该系统采用了准确鲁棒的英文科技文献元数据提取算法,具有简洁高效的索引结构,对引文间的关联关系描述准确,适合于桌面应用的任务。本文相关研究工作可应用于数字图书馆和数据挖掘等领域,系统本身具有较高的实用价值。