单元度和领域性相结合的中文术语自动提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:chitianshyitt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语是为有效表达领域知识而产生的词语单元,其计算至少分为单元度(指一个符号串作为词语出现的可能性的度量)的计算和领域性的计算两方面。 本论文重点研究单元度的计算方法,该方法不仅适用于术语提取,对于新词、新语的获取也同样适合。关于单元度的计算方法,常见的方法有互信息、开方分布等,这些方法所使用的统计信息一般包括词串同现信息以及各个子串的出现概率信息。然而,在实际应用中发现,这些信息对于准确计算词串的单元度还是不够的。本论文提出了一种基于多特征的单元度计算公式。该方法在考虑词串同现信息和各个子串的出现概率的基础上,又增加了各个子串的边界变化特征信息。在具体计算时,将计算给定符号串的单元度的问题看作是计算从上下文中分割出当前符号串的概率问题,通过对符号串中的每两个连续符号之间的连接性和符号串两端的独立性的计算,得到单元度的计算值。词语单元的特性一般表现为结合紧密,使用稳定。常见的词语提取方法集中于计算候选词语的结合紧密性,而本论文提出的方法通过全面考虑候选词语边界和内部的信息,在考虑计算结合紧密性的同时,还考虑了使用稳定性。从而使词串的单元度计算更加完整可信。实验表明该算法的效果好于当前常见的词语提取方法。 本论文对于术语的领域性的计算也进行了相关研究,在此基础上可以进一步从已分类的语料中抽取领域相关的新术语,从而为建立更加完整的术语领域知识体系做好准备。关于术语领域性的计算,本论文分析比较了传统的儿种方法,在此基础上形成自己的领域性计算公式。通过领域性的计算,在单元度计算结果的基础上按领域分类和过滤,从而为最后的人工整理提供高质量的候选术语库。 作为汉语语言计算中的一种基本算法,汉语术语的自动提取算法将在术语标准化、词典编撰、自动分词、新词语的发现和领域知识的获取等应用中发挥巨大的作用。
其他文献
DNS是互联网上一个至关重要的组成部分,域名服务器的分布情况与性能优劣对互联网服务质量起非常关键的作用。随着域名数量和网民数量的增长,域名访问量和解析量成正比增长,优化
分布式虚拟环境中的兴趣管理技术将对象通讯局部化,降低整个虚拟环境的通讯量,使得虚拟环境容纳大量对象进行通讯成为可能,但传统的通讯结构和过滤规则使得兴趣管理的扩展性较差
基于样图的纹理合成技术是继纹理映射、过程纹理合成方法之后发展起来的一种新的纹理合成技术,用于解决传统方法中出现的接缝、扭曲和参数调整等问题。它在图像编辑、缺损图
随着传感器技术、嵌入式技术以及低功耗无线通信技术的发展,生产具备感应、无线通讯以及信息处理能力的微型无线传感器节点已成为可能。这些廉价的、低功耗的传感器节点共同
自然界中的物体和非机加工生产的手工制品绝大部分是不规则的形体。不规则形体是指其外形的凹凸变化没法用数学公式描述的形体,由于没有适当的数学模型,大多数编程语言和三维
当今社会信息处理在人们的生活、工作和学习活动中发挥着不可缺少的作用,其重要性越来越突出,信息化带来的效益也越来越显著。为了稳定高效地从信息处理中获得收益,必须保证信息
本文主要研究基于图像处理技术的靶场目标检测的算法。在靶标检测过程中权衡精度和速度需求,本文将靶标检测的方法分为粗检测和精检测两步。粗检测是利用图像灰度预处理、图像
最早的呼叫中心出现在20世纪60年代,当时的呼叫中心只能提供单纯的语音接入服务,所有的服务都要由坐席代理手工完成。呼叫中心的发展经历了三个主要阶段,从最初的人工热线系
面向对象方法作为一种成熟的软件开发方法已经在国内外广泛应用,近年在我国金融行业引起重视。人民币结算账户管理和监控是人民银行的一项重要职责,2004年6月至2005年2月,中国人
随着Web技术和电子政务的发展,基于Web的电子政务应用系统也成为研究和开发的热点。设计并开发一个安全,灵活,可移植,可维护,运行效率高的基于Web的电子政务应用系统成为我国软件