论文部分内容阅读
术语是为有效表达领域知识而产生的词语单元,其计算至少分为单元度(指一个符号串作为词语出现的可能性的度量)的计算和领域性的计算两方面。
本论文重点研究单元度的计算方法,该方法不仅适用于术语提取,对于新词、新语的获取也同样适合。关于单元度的计算方法,常见的方法有互信息、开方分布等,这些方法所使用的统计信息一般包括词串同现信息以及各个子串的出现概率信息。然而,在实际应用中发现,这些信息对于准确计算词串的单元度还是不够的。本论文提出了一种基于多特征的单元度计算公式。该方法在考虑词串同现信息和各个子串的出现概率的基础上,又增加了各个子串的边界变化特征信息。在具体计算时,将计算给定符号串的单元度的问题看作是计算从上下文中分割出当前符号串的概率问题,通过对符号串中的每两个连续符号之间的连接性和符号串两端的独立性的计算,得到单元度的计算值。词语单元的特性一般表现为结合紧密,使用稳定。常见的词语提取方法集中于计算候选词语的结合紧密性,而本论文提出的方法通过全面考虑候选词语边界和内部的信息,在考虑计算结合紧密性的同时,还考虑了使用稳定性。从而使词串的单元度计算更加完整可信。实验表明该算法的效果好于当前常见的词语提取方法。
本论文对于术语的领域性的计算也进行了相关研究,在此基础上可以进一步从已分类的语料中抽取领域相关的新术语,从而为建立更加完整的术语领域知识体系做好准备。关于术语领域性的计算,本论文分析比较了传统的儿种方法,在此基础上形成自己的领域性计算公式。通过领域性的计算,在单元度计算结果的基础上按领域分类和过滤,从而为最后的人工整理提供高质量的候选术语库。
作为汉语语言计算中的一种基本算法,汉语术语的自动提取算法将在术语标准化、词典编撰、自动分词、新词语的发现和领域知识的获取等应用中发挥巨大的作用。