基于多特征的中文多词术语提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ztgu8p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,大量电子文档的出现,知识的载体由过去的纸质文档转变成电子文档,术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重,利用计算机来进行术语自动提取的技术就应运而生。随着研究的不断深入,中文术语的自动提取的越来越引起人们的重视,其应用范围在不断被拓展,提取效率也在不断提高。 当前中文术语提取的过程分为单元度计算过程和领域度计算两个过程。本文在前人工作的基础之上,提出了一种新的中文术语自动提取的方法。在单元度计算方面,本文同时考虑候选词串内部构成的结合强度和外部边界的自由程度,对候选词串的单元度指标进行衡量,同时将候选词串的长度由2-gram推广到N-gram;在领域度计算部分,在考虑候选术语在不同领域中的统计信息和上下文信息等语料库一级领域信息的同时,考虑词汇一级的候选术语领域部件信息等内部构成信息等,尽可能充分的利用特定领域术语的特性信息,来进行领域度的计算。同时,本文将特定领域的术语提取问题等价为一个二值分类问题,以领域部件信息、候选术语在不同领域中的统计信息和上下文信息作为分类特征,基于SVM 框架来计算候选术语的领域度。最后本文还尝试利用候选术语句子一级的信息,借用术语标注的思路,使用CRF方法来进行领域术语的提取。 为了有效的验证和评测我们的系统和算法,我们进行了多组实验,分别使用基于不同方式获取的领域知识词典,来进行计算机领域的术语提取实验。实验结果显示我们的SVM框架下的术语提取算法在前20,000个候选术语中准确率可以达到50%以上,前2,000个准确率平均超过80%。实验同时显示我们的方法对领域词典的规模没有很强的依赖性。一个质量高的规模在数千量级术语的领域词典就可以取得一个很好的结果。
其他文献
互联网正在快速地发展,面对信息的海洋,如何从中发现、选择和查询所需要的数据和服务信息就成为一项重要而迫切的研究课题。为了适应这种需求,提出了“语义Web”和”Web服务”的
关系网络是人或其它对象通过相互联系和影响构成的结构或系统,通过对关系网络的研究,有助于发现仅依靠个体信息无法获得的重要信息。关系网络中节点价值计算是对关系网络中的对
安全策略模型是开发安全操作系统的基础,它对安全策略的描述准确与否,决定着所开发的系统安全机制是否能正确地实施安全策略。因此,安全模型的研究对于安全操作系统的开发具有重
学位
视景仿真系统广泛应用于各个研究领域,如军事科学仿真、空间任务仿真、城市规划等等。近年来,随着我国空间科学事业的迅速发展,基于空间任务的视景技术显得越来越重要,利用视
对流体现象的仿真模拟是计算机图形学中的一个重要研究方向,在许多领域尤其是电影、游戏中有着广泛的应用。在这些应用中,除绘制出具真实感的流体动画外,有时还需要以艺术化的手
软件复用是解决软件危机的一条切实可行的途径,软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前,随着
性能分析与优化一直是计算机研究中的热点.著名的80-20原理告诉我们,程序中执行最为频繁的通常只是小部分被称为热点的代码.性能分析与优化的目的就是分析发现程序热点并使之
随着互联网带宽的优化,网络传输、视频压缩等技术的创新,视频已成为互联网最为重要的应用之一,是互联网流量主要贡献者。互联网视频访问模型不仅是视频分发缓存策略与系统设计实
最近五年内,在大量生物医学研究问题的驱动下,整体蛋白质的鉴定技术获得了快速发展:高通量的分离技术使得一次研究中可以同时鉴定到超过1,000个完整的蛋白质;高精度的质谱技术大
模型检测是一种自动完成性质验证的算法过程,模型检测器是模型检测算法的工具实现,可用来检验系统是否满足某些性质,如可达性、安全性等,可以及时发现问题,更改系统设计中的缺陷,避
学位