专利文献中机具名的自动识别

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:solofly123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献中有大量新词语,不可能事先全部收入词表,如果不能正确辨认,就会严重影响专利文献自动处理的效果,因此迫切需要研究和开发能够自动识别这些新词语的程序。机具名是专利文献中常见的一类新词语,本文研究了自动识别这类新词语的基本问题,并实现了一个可实用的自动识别程序。   本文的主要内容有以下3个方面:   (1)分析了机具名的构成及其使用环境。本文从大量专利文献中提取出了两千多条机具名,在此基础上对机具名所用字词的特点及其组合规律、机具名出现的上下文环境进行了分析、归纳和总结。   (2)建立了机具名识别所需的知识库。在上述研究的基础上,建立了服务于机具名识别的知识库,主要包括两个库:一是机具名标志字知识库,二是机具名前边界字词知识库。   (3)设计和实现了一个机具名自动识别程序。基于上述研究结果和知识库资源,采用C#.NET语言,以面向对象的方法设计和实现了一个机具名自动识别程序。经封闭测试,该程序识别的召回率达到77%,正确率达到78%。   本文基于对真实语言材料的分析研究建立知识库,在此基础上实现对专利文献中机具名的自动识别,取得了比较好的效果。本文实现的识别程序可以在专利文献自动处理中得到实际应用。但本文研究的结果和实现的程序都还是很初步的,需要继续提高和改进。
其他文献
创造性人才是社会进步的根本,那么如何提高大学生的综合素质,培养创造性人才是当前高等学校亟待解决的问题.计算机专业作为一个应用性学科,不能按照旧的教学模式进行,应该采
汉晋文人五言诗在我国古代诗歌发展历程中有着重要地位,其中的景物描写经过长期的发展最终演变成为晋宋之交谢灵运山水诗中的描摹自然。本文主要以谢灵运之前汉晋文人五言诗
本课题以“马其昶”为研究对象,通过对相关史料的爬梳、家族的梳理及文本的研读,探讨马其昶其人其文,展现其家族的衰落及其所代表的传统士大夫阶级的谢幕、古文的衰落,并对马
量词丰富是汉语和日语的特征之一。日语量词称为“助数词”(以下暂把日语的助数词也称为量词)。虽然汉语和日语是两种不同的语言,但因为从5、6世纪开始中国的汉字就传到了日
本文尝试研究朱湘的叙事诗学。朱湘是著名的中国现代诗人,他生前特别关注叙事诗的创作,对叙事诗这一文体类型有自己独特的见解,对于叙事诗的创作目的,创作主题,叙事诗的前景
部件在组成整字的过程中,由于各种各样的原因,有些部件中的笔画要发生书写变异。笔画的书写变异有些是必要的,有些是不必要的,如果笔画的书写变异缺乏一定的规律性,则必然加
介词框架是汉语中一种重要的语法现象,但是近几年才逐渐得到关注,所以,仍处于研究的起步阶段。本文选择具有较高使用频率的“从”框架进行系统的研究,希望可以揭示汉语介词框
在课堂教学时,小学生的注意力很容易被分散,从而影响课堂教学效果。趣味教学就是主要针对这一困境而设计的教学策略。利用有趣的教学形式吸引学生的注意力锁定在教学内容上,
2017年4月4日~7日,IEC/TC65/AHG3(智能制造框架与系统架构特别工作组)第五次会议在美国国家标准与技术研究院(NIST)召开。来自德国、美国、法国、日本、韩国、意大利等国家的
早期革命文学的发展经过了一个从模糊到逐渐清晰的过程。在1928年革命文学论争之前,共产党人、国民党、进步作家和一些文学社团就注意到现代文学的发展和中国的政治环境紧密