基于文本理解的专利新颖性评价

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lemon2513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代信息化社会里,专利信息是一种具有极高价值的一种知识库,包含了很高的人类智慧,不仅有很高的实用价值,而且对于人们继续进行新的创新具有极大的启发作用。本课题从专利的文摘入手,以文摘相似性、信息论理论作为基础,计算专利摘要的创新特征。而让计算机来理解和处理丰富的自然语言,是极具挑战性的,自然语言理解,特别是中文信息处理,也一直是计算机界的难题;中文的特点和外文有很大不同,以前采用的多是字符统计分析,没有进行语义计算;现在中文的分词技术已经取得了很大成就,本研究就是采用北大分词语言研究所的分词技术,将摘要文本进行向量化,对词意进行语义计算;传统的文章语义计算需要进行词性标注,确定词的语法成份,由于中文的表达方式非常灵活,仅靠语法分析的方法得到的结果还不够理想,实用性不高。 近十多年来,随着计算机本身以及信息高速公路的飞速发展,中文信息处理开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。知网的创始人董振东先生在从事多年这方面研究的基础上在中文信息处理中创出新路,提出了知网(HowNet)的概念。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为语言信息处理的研发提供了丰富的知识资源,在知网体系上产生了很多新的中文理解的理论,包括中文语义相似等理论已经有了很大的成果,大大推进了中文信息的理解能力。 创新计算的基础是语义相似度计算,本课题根据董先生提出的知网理论和知网的数据文件,建立了一个系统的HowNet知识库,利用这个知识库进行文本语义的相似计算。通过对语义相似程度对得到的文本进行分类和比较,具有创新性的专利会在某方面对已经存在的技术理论材料成本等方面作出更新,在文字的表现方面就是其相似程度比已有的文摘低,这样一来就可以通过计算具有这样特征的文章来寻找创新专利。文本信息熵值反映文本的冗余度,有创新特点的文摘表现在冗余较低,通过计算模型综合上面的两种特点找到这样的文摘就是具有创新性的文摘。
其他文献
数据中心能耗控制与应用服务质量(QoS)优化是当前云计算产业面临的关键问题。在保障应用QoS的前提下,优化整个数据中心资源组合与分配方式,将不同资源需求的应用程序环境(AEs)
目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的
Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是,面对海量的新闻报道,人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻
聚合k最近邻查询处理技术是近年来数据库领域的一个研究重点与热点,传统的聚合k最近邻查询主要关注欧式空间,并用欧式距离来度量对象之间的邻近关系。路网中的邻近关系不能简单
随着软件系统变得越来越复杂,如何保证软件系统的可靠运行,已经成为科研人员所面临的巨大挑战。软件缺陷是软件系统不可靠的主要原因。目前已经有许多关于软件缺陷检测的研究
随着GPGPU在通用计算领域的快速发展,异构多核体系架构越来越普及,其计算能力越来越强大,GPGPU编程模型通常以主机和设备为基础,CPU执行主机端代码,GPGPU执行设备端代码只负责计算
以VoIP为代表的互联网通信作为一种典型的宽带应用正面临着前所未有的发展机遇。VoIP为语音、视频、数据业务的融合提供了一个综合的开放平台。在这个平台上,IP电话、视频播
本文对面向中文专著的汉韩机器辅助翻译进行了研究。主要成果可以归结为以下六个方面: 第一,深入地分析了中文专著的语言特点。中文专著在编写格式、语言运用上除了一般文章
自2007年苹果公司发布了iPhone,短短的几年间,智能手机应用(MobileApplication,App)数量的爆发式增长,虽然极大方便了用户的生活、工作,同时也带来了如何从海量应用中寻找、选择合
车牌识别系统(LPR)是智能交通管理系统中的重要组成部分,从车牌图像中迅速、准确的分割出车牌区域的定位问题是实现车牌识别的一个关键环节。本论文针对车牌定位算法的研究,提