论文部分内容阅读
随着互联网技术的不断发展,大量电子文档的出现,知识的载体由过去的纸质文档转变成电子文档,术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重,利用计算机来进行术语自动提取的技术就应运而生。随着研究的不断深入,中文术语的自动提取的越来越引起人们的重视,其应用范围在不断被拓展,提取效率也在不断提高。
当前中文术语提取的过程分为单元度计算过程和领域度计算两个过程。本文在前人工作的基础之上,提出了一种新的中文术语自动提取的方法。在单元度计算方面,本文同时考虑候选词串内部构成的结合强度和外部边界的自由程度,对候选词串的单元度指标进行衡量,同时将候选词串的长度由2-gram推广到N-gram;在领域度计算部分,在考虑候选术语在不同领域中的统计信息和上下文信息等语料库一级领域信息的同时,考虑词汇一级的候选术语领域部件信息等内部构成信息等,尽可能充分的利用特定领域术语的特性信息,来进行领域度的计算。同时,本文将特定领域的术语提取问题等价为一个二值分类问题,以领域部件信息、候选术语在不同领域中的统计信息和上下文信息作为分类特征,基于SVM 框架来计算候选术语的领域度。最后本文还尝试利用候选术语句子一级的信息,借用术语标注的思路,使用CRF方法来进行领域术语的提取。
为了有效的验证和评测我们的系统和算法,我们进行了多组实验,分别使用基于不同方式获取的领域知识词典,来进行计算机领域的术语提取实验。实验结果显示我们的SVM框架下的术语提取算法在前20,000个候选术语中准确率可以达到50%以上,前2,000个准确率平均超过80%。实验同时显示我们的方法对领域词典的规模没有很强的依赖性。一个质量高的规模在数千量级术语的领域词典就可以取得一个很好的结果。