基于字角色标注的中文专利术语识别研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wormchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献在科技、制造、经济和法律等领域有着广泛的应用,深入挖掘专利文献的服务方式对上述领域的发展和进步具有重要意义。专利术语是在某一领域专利文献中具有明确指向性的语词,它能够充分、完整地反映专利文献的主要描述对象,对专利术语进行挖掘和处理能够为深度的专利文献服务提供支持。在当前术语识别的研究领域,主要分为基于统计的方法、基于语言规则匹配的方法以及统计与语言规则相结合的方法。条件随机场(CRFs)作为一种成熟度较高的学习算法,因其算法优势,在当前术语识别领域有着广泛的应用。在某一文本语料中,它能够同时考察对象自身的横向特征与该对象所处上下文的纵向特征。本文采用条件随机场(CRFs)机器学习算法,对中文钢铁冶金领域的专利文献题名进行字特征的学习,并利用训练生成的标注模型对测试语料进行角色的自动标注,进而完成术语识别操作。本文的核心内容与主要工作涉及以下几个方面:(1)训练语料的规范化处理。由于当前中文钢铁冶金领域没有合适的专利术语表,在进行角色标注时所出现的“术语嵌套”及“长术语”现象会对角色的正确标注造成障碍。为此,笔者在研究中首先对标注过的来源文本进行术语抽取,经过进一步的筛选和组织,最终构建了该领域专利文献的术语集合。该术语集合不仅是对来源文本中领域术语的整体描述,更是在进行角色标注过程中的可靠参照。(2)引入新的特征项。结合来源文本语料的主题特征与内容结构特征,笔者在已有研究成果的基础上引入了“化工元素特征”与“字频特征”这两个新的特征项。其中,前者对来源文本中的化工元素字与非化工元素字进行了特征区分,后者则对术语组成字与非术语组成字进行了特征区分。从实验结果来看,引入这两种新的特征项能够有效促进角色标注模型的整体性能。(3)构建了角色标注模型。在设置特征项的基础上,本文构建了5种不同的特征模板用于考察不同特征项对于角色标注模型的影响力。本文采用最新版本的CRF++0.58作为算法运行平台,基于条件随机场(CRFs)学习算法,结合所构建的训练语料,分别以5种特征模板为参考构建了标注模型。之后,采用经典的评测指标(准确率、召回率、F值)与附加指标(字角色标注召回率)对比分析了5种标注模型的标注结果。(4)总结了不同特征项的影响力以及特征项设置的经验性规律。根据对5种模型的评测结果,本文尝试从来源文本的语义属性出发,分析不同特征项对领域术语识别的影响力。本文在最后总结了特征项设置的一般原则,指明了进一步改进研究的方向。
其他文献
目的:观察通络救脑注射液及其有效组分对拟缺血损伤脑微血管内皮细胞谷氨酸受体3(glutamate receptor 3,GluR3)表达及其功能的影响。方法:采用大鼠原代培养脑微血管内皮细胞,
主要对强夯的处理方案及施工技术要点进行概述,探析强夯地基的减震措施及检测要点,强夯地基处理方案的提出是建筑施工的一个进步,推进了我国施工技术的发展。
<正>2015年2月3日,中国保监会发布了《关于深化商业车险条款费率管理制度改革的意见》(以下简称《意见》)。2月4日,根据《意见》的指导和要求,中国保险行业协会对目前的商业
经济增长不仅应该包括数量的增加,也应该包含质量的提高。人们往往只注重经济总量的增长,却忽视经济增长质量。近年来,经济增长的最终目标是什么,应该用什么指标来描述经济增
肖邦素有"钢琴诗人"之誉,其音乐的民族性是众所周知的,他的音乐体裁和内容都与波兰有关,和爱国主义相连。肖邦音乐的民族性也是一种世界性,它已经突破了波兰民族音乐语言的局
法治对于创新社会治理具有重大价值和作用,因此,必须大力提升社会治理的法治化水平。为此,坚持依法治理社会的理念,不断加快社会治理领域法制建设,不断健全法治化条件下的社
<正>在经济全球化和知识经济迅速发展的背景下企业跨国并购浪潮此起彼伏,而且呈现出跨行业和强强联合的新特点。随着我国买方市场的形成及从增量改革到存量改革的战略转变,我
为了解决山西省矿井水利用率不高,浪费严重的问题,在《山西省矿井水利用规划》精神指导下,本文对目前矿井水处理技术中一些不合理的现象矛盾进行研究,力争在传统的处理方法上
近年来,随着免疫学的不断发展以及血清学技术的应用,对双歧杆菌的鉴定和检测已从传统的平板计数方法发展到应用以抗原抗体反应为基础的各种酶免疫检测方法。在所有以抗原抗体
行政公益诉讼制度是基于我国国情的一项诉讼制度设计,基于《行政诉讼法》的修改完善以及司法机关试点工作实践,其基本制度框架已经建立,但其受案范围的界定、起诉条件等仍不