论文部分内容阅读
专利文献在科技、制造、经济和法律等领域有着广泛的应用,深入挖掘专利文献的服务方式对上述领域的发展和进步具有重要意义。专利术语是在某一领域专利文献中具有明确指向性的语词,它能够充分、完整地反映专利文献的主要描述对象,对专利术语进行挖掘和处理能够为深度的专利文献服务提供支持。在当前术语识别的研究领域,主要分为基于统计的方法、基于语言规则匹配的方法以及统计与语言规则相结合的方法。条件随机场(CRFs)作为一种成熟度较高的学习算法,因其算法优势,在当前术语识别领域有着广泛的应用。在某一文本语料中,它能够同时考察对象自身的横向特征与该对象所处上下文的纵向特征。本文采用条件随机场(CRFs)机器学习算法,对中文钢铁冶金领域的专利文献题名进行字特征的学习,并利用训练生成的标注模型对测试语料进行角色的自动标注,进而完成术语识别操作。本文的核心内容与主要工作涉及以下几个方面:(1)训练语料的规范化处理。由于当前中文钢铁冶金领域没有合适的专利术语表,在进行角色标注时所出现的“术语嵌套”及“长术语”现象会对角色的正确标注造成障碍。为此,笔者在研究中首先对标注过的来源文本进行术语抽取,经过进一步的筛选和组织,最终构建了该领域专利文献的术语集合。该术语集合不仅是对来源文本中领域术语的整体描述,更是在进行角色标注过程中的可靠参照。(2)引入新的特征项。结合来源文本语料的主题特征与内容结构特征,笔者在已有研究成果的基础上引入了“化工元素特征”与“字频特征”这两个新的特征项。其中,前者对来源文本中的化工元素字与非化工元素字进行了特征区分,后者则对术语组成字与非术语组成字进行了特征区分。从实验结果来看,引入这两种新的特征项能够有效促进角色标注模型的整体性能。(3)构建了角色标注模型。在设置特征项的基础上,本文构建了5种不同的特征模板用于考察不同特征项对于角色标注模型的影响力。本文采用最新版本的CRF++0.58作为算法运行平台,基于条件随机场(CRFs)学习算法,结合所构建的训练语料,分别以5种特征模板为参考构建了标注模型。之后,采用经典的评测指标(准确率、召回率、F值)与附加指标(字角色标注召回率)对比分析了5种标注模型的标注结果。(4)总结了不同特征项的影响力以及特征项设置的经验性规律。根据对5种模型的评测结果,本文尝试从来源文本的语义属性出发,分析不同特征项对领域术语识别的影响力。本文在最后总结了特征项设置的一般原则,指明了进一步改进研究的方向。