论文部分内容阅读
在现代信息化社会里,专利信息是一种具有极高价值的一种知识库,包含了很高的人类智慧,不仅有很高的实用价值,而且对于人们继续进行新的创新具有极大的启发作用。本课题从专利的文摘入手,以文摘相似性、信息论理论作为基础,计算专利摘要的创新特征。而让计算机来理解和处理丰富的自然语言,是极具挑战性的,自然语言理解,特别是中文信息处理,也一直是计算机界的难题;中文的特点和外文有很大不同,以前采用的多是字符统计分析,没有进行语义计算;现在中文的分词技术已经取得了很大成就,本研究就是采用北大分词语言研究所的分词技术,将摘要文本进行向量化,对词意进行语义计算;传统的文章语义计算需要进行词性标注,确定词的语法成份,由于中文的表达方式非常灵活,仅靠语法分析的方法得到的结果还不够理想,实用性不高。
近十多年来,随着计算机本身以及信息高速公路的飞速发展,中文信息处理开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。知网的创始人董振东先生在从事多年这方面研究的基础上在中文信息处理中创出新路,提出了知网(HowNet)的概念。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为语言信息处理的研发提供了丰富的知识资源,在知网体系上产生了很多新的中文理解的理论,包括中文语义相似等理论已经有了很大的成果,大大推进了中文信息的理解能力。
创新计算的基础是语义相似度计算,本课题根据董先生提出的知网理论和知网的数据文件,建立了一个系统的HowNet知识库,利用这个知识库进行文本语义的相似计算。通过对语义相似程度对得到的文本进行分类和比较,具有创新性的专利会在某方面对已经存在的技术理论材料成本等方面作出更新,在文字的表现方面就是其相似程度比已有的文摘低,这样一来就可以通过计算具有这样特征的文章来寻找创新专利。文本信息熵值反映文本的冗余度,有创新特点的文摘表现在冗余较低,通过计算模型综合上面的两种特点找到这样的文摘就是具有创新性的文摘。