论文部分内容阅读
当前世界已经进入知识经济时代,越来越多的国家开始重点关注知识产权的保护,并将发展知识产权作为国家经济发展战略的重大内容。专利文档作为保存现代科技成果的重要方式,几乎包含一切应用领域的创新成果,涉及社会生活的方方面面。对专利文档信息的应用的第一步,就是对专利文档的有效检索。21世纪以来,专利文档的数量正以指数级别增长,专利检索面临着巨大的挑战,如何高效的进行专利检索,从浩如烟海的专利中获取相关的专利文件,将是研究的热点。 传统的信息检索方法不能很好地理解用户的查询意图,并且存在着误匹配问题,本文针对这两个问题,在阅读了信息检索领域相关的论文,研究了当前常见的专利检索方法和查询扩展技术的基础上,分析了专利文档及专利检索的特点,提出了一种基于语义查询扩展的专利文档检索方法,并给出实现该方法的一个整体检索框架,用于对英文专利文档的检索。 本文方法首先对专利文档进行预处理,利用国际专利分类体系(IPC)对专利文档进行简单分类,针对专利文档特点对TF-IDF(Term Frequency-InverseDocument Frequency)公式进行改进,提出基于改进TF-IDF公式的专利领域概念提取方法,构建了专利领域概念词典。接着对用户查询输入专利文档进行分析得到查询概念,同领域词表相结合,利用基于YAGO2s的查询扩展技术,根据原始查询概念的语义关系在YAGO2s中得到扩展结果,提取查询扩展概念,最后将扩展项与原始查询条件相结合,重新组成查询条件进行查询评分排序,完成专利检索。 本文采用NTCIR-6数据集,设计了两组实验,并进行了分析。实验验证了使用本方法完成专利检索的可行性,与其他检索方法的横向对比,表明该方法具有较高的召回率和平均准确率,提高了专利检索的性能。