基于语义查询扩展的专利文档检索方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:shuguang_888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前世界已经进入知识经济时代,越来越多的国家开始重点关注知识产权的保护,并将发展知识产权作为国家经济发展战略的重大内容。专利文档作为保存现代科技成果的重要方式,几乎包含一切应用领域的创新成果,涉及社会生活的方方面面。对专利文档信息的应用的第一步,就是对专利文档的有效检索。21世纪以来,专利文档的数量正以指数级别增长,专利检索面临着巨大的挑战,如何高效的进行专利检索,从浩如烟海的专利中获取相关的专利文件,将是研究的热点。  传统的信息检索方法不能很好地理解用户的查询意图,并且存在着误匹配问题,本文针对这两个问题,在阅读了信息检索领域相关的论文,研究了当前常见的专利检索方法和查询扩展技术的基础上,分析了专利文档及专利检索的特点,提出了一种基于语义查询扩展的专利文档检索方法,并给出实现该方法的一个整体检索框架,用于对英文专利文档的检索。  本文方法首先对专利文档进行预处理,利用国际专利分类体系(IPC)对专利文档进行简单分类,针对专利文档特点对TF-IDF(Term Frequency-InverseDocument Frequency)公式进行改进,提出基于改进TF-IDF公式的专利领域概念提取方法,构建了专利领域概念词典。接着对用户查询输入专利文档进行分析得到查询概念,同领域词表相结合,利用基于YAGO2s的查询扩展技术,根据原始查询概念的语义关系在YAGO2s中得到扩展结果,提取查询扩展概念,最后将扩展项与原始查询条件相结合,重新组成查询条件进行查询评分排序,完成专利检索。  本文采用NTCIR-6数据集,设计了两组实验,并进行了分析。实验验证了使用本方法完成专利检索的可行性,与其他检索方法的横向对比,表明该方法具有较高的召回率和平均准确率,提高了专利检索的性能。
其他文献
雾的研究涉及多个方面,包括大尺度雾天气学的研究,雾天气过程边界层结构研究,雾天与湍流、辐射过程,雾中湍流参数化及湍流输送过程,地表动力学粗糙度的研究等。已有研究多针对少量
目的 以乳腺癌表皮生长因子受体2 (HER2)为靶点,制备以顺磁性粒子钆为载体的MR分子探针,通过MR靶向成像为乳腺癌个体化治疗提供影像学依据.材料与方法 利用课题组前期制备的
无限局域网由于其方便快捷,广泛地应用于人群密集的热点区域,比如商业办公、个人家庭等领域。无线技术不仅正在改变找人们传统的工作学习和生活方式,而且使得人们可以随时随地获
近年来,三维模型的应用广泛,衍生出的相关技术也得到关注,但万宗之源仍是三维几何模型的获取。网格模型自身又具有的良好灵活性,便于修改和调整,所以充分利用己有的模型资源,经过适度变形,进而获得符合具体应用需求的新模型成为新的研究方向。为了提高既有模型的利用率,同时摆脱现有三维模型变形技术中对人工选取控制点的依赖,本文基于轮廓线和深度图的三维模型的变形技术开展研究,主要工作如下:(1)三维薄板样条变形技
本文中国科学院云南天文台扫描手绘太阳黑子图像为研究对象,研究图像中黑子面积的自动测量方法,使用计算机自动处理的方式,完成黑子面积的自动计算,并将信息与真实太阳黑子面积信
提升大学生就业竞争力,解决大学生就业问题是社会广泛关注的话题.由于多种因素的影响,大学生毕业后失业成为一种常态,也成为广大教育工作者需要致力研究的课题.本文首先对就
移动Web服务是Web Service技术在移动设备方面的应用之一,它已成为新时期移动服务系统设计的趋势。旅游业一直是移动信息系统应用的热门领域,在移动新技术的应用上有着巨大潜力
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,广泛用于源自邮件、音频、文件、网页、论坛、社交媒体中的数据分析与应用,分词技术是自然语言处理的关键技术之
在对类似于专利战略分析系统这种复杂系统的研究中,一个非常棘手的问题就是高维数据的降维问题。决定现实世界演化的背景机制通常是非线性的,传统的线性降维方法(如主成分分析
新闻背景为了抢救保存各地的方言和少数民族语言,今年10月,中国语言资源有声数据库启动。对此,一位网友说:“我感觉我家乡的方言,是世界上最动听的语言。有效保护,将使她永远