论文部分内容阅读
近年来,随着我国经济飞速发展,知识产权的重要性日益突出,而专利是知识产权中的重要组成部分,其重要性是不言而喻的。互联网的快速发展将人们置身于一片信息的海洋。如何从不计其数的书籍、期刊,报告,电子文档,专利等文本中获取自己感兴趣的信息。自动问答系统和数据挖掘技术的出现从一定程度上解决了这个一直困扰着人们的难题。 本文针对中文专利的信息抽取技术进行了深入调研,在此基础上设计并开发了针对专利文本的信息抽取系统。针对中文专利文本制定标记集对中文专利摘要文本进行人工标注,形成原始的训练集,将原始训练集转化为正则表达式的集合,利用正则表达式的捕获组技术抽取专利摘要文本中的目标信息,并对抽取结果进行人工评价。其中技术主题信息抽取结果的准确率和召回率均达到80%以上,实验结果表明,本文针对中文专利文本设计的信息抽取系统达到了较好的抽取效果。 本文还对中文专利文本的聚类技术进行了研究,通过自然语言处理常用技术进行前期处理,并利用信息熵的方法进行初步降维,我们利用向量空间模型将中文专利文档集转化为数学模型,在建模过程中,引入了外部同义词词典降低文档集矩阵的稀疏程度,然后利用LSI、ISOMap等降维算法对文档集矩阵进行大幅度降维,在此基础上分别采用层次聚类算法、谱聚类算法、K-means聚类算法对中文专利文档集进行聚类,并对K-means算法进行了改进。我们采用了准确率、召回率、F值、信息熵、误差平方和等五个评价指标对各种聚类算法和降维方法进行评价分析。 聚类的实验结果表明,针对中文专利文本,层次聚类算法和改进的K-means算法取得较优的F值,达到0.79以上。通过对K-means算法的改进,使得算法的部分评价指标甚至达到层次聚类算法同等效果。在将维度降到较低维度时,ISOMap算法比LSI算法有着更强的适应性。