基于多特征的中文多词术语提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：ztgu8p

【摘要】

：

随着互联网技术的不断发展，大量电子文档的出现，知识的载体由过去的纸质文档转变成电子文档，术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重，利

【作者】

：

张秦龙

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

中文术语自动提取单元度领域度信息抽取自然语言处理 SVM框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的不断发展，大量电子文档的出现，知识的载体由过去的纸质文档转变成电子文档，术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重，利用计算机来进行术语自动提取的技术就应运而生。随着研究的不断深入，中文术语的自动提取的越来越引起人们的重视，其应用范围在不断被拓展，提取效率也在不断提高。当前中文术语提取的过程分为单元度计算过程和领域度计算两个过程。本文在前人工作的基础之上，提出了一种新的中文术语自动提取的方法。在单元度计算方面，本文同时考虑候选词串内部构成的结合强度和外部边界的自由程度，对候选词串的单元度指标进行衡量，同时将候选词串的长度由2-gram推广到N-gram；在领域度计算部分，在考虑候选术语在不同领域中的统计信息和上下文信息等语料库一级领域信息的同时，考虑词汇一级的候选术语领域部件信息等内部构成信息等，尽可能充分的利用特定领域术语的特性信息，来进行领域度的计算。同时，本文将特定领域的术语提取问题等价为一个二值分类问题，以领域部件信息、候选术语在不同领域中的统计信息和上下文信息作为分类特征，基于SVM 框架来计算候选术语的领域度。最后本文还尝试利用候选术语句子一级的信息，借用术语标注的思路，使用CRF方法来进行领域术语的提取。为了有效的验证和评测我们的系统和算法，我们进行了多组实验，分别使用基于不同方式获取的领域知识词典，来进行计算机领域的术语提取实验。实验结果显示我们的SVM框架下的术语提取算法在前20,000个候选术语中准确率可以达到50％以上，前2,000个准确率平均超过80％。实验同时显示我们的方法对领域词典的规模没有很强的依赖性。一个质量高的规模在数千量级术语的领域词典就可以取得一个很好的结果。

其他文献

语义Web服务的选择、发现和查询策略研究与应用

互联网正在快速地发展，面对信息的海洋，如何从中发现、选择和查询所需要的数据和服务信息就成为一项重要而迫切的研究课题。为了适应这种需求，提出了“语义Web”和”Web服务”的

学位

描述逻辑描述逻辑服务质量服务质量模糊约束满足模糊约束满足服务选择服务选择服务发现服务发现语义查询语义查询含幺半群概括演算含幺半群概括演算

大规模关系网络价值计算研究与实现

关系网络是人或其它对象通过相互联系和影响构成的结构或系统，通过对关系网络的研究，有助于发现仅依靠个体信息无法获得的重要信息。关系网络中节点价值计算是对关系网络中的对

学位

关系网络价值计算动态传播Spark框架综合模型

安全操作系统策略模型的关键问题研究

安全策略模型是开发安全操作系统的基础，它对安全策略的描述准确与否，决定着所开发的系统安全机制是否能正确地实施安全策略。因此，安全模型的研究对于安全操作系统的开发具有重

学位

安全操作

空间任务视景仿真系统的设计与实现

视景仿真系统广泛应用于各个研究领域,如军事科学仿真、空间任务仿真、城市规划等等。近年来,随着我国空间科学事业的迅速发展,基于空间任务的视景技术显得越来越重要,利用视

学位

视景仿真多视窗显示控制台操作动态加载多模式观察

自由运动界面流体的非真实感动画

对流体现象的仿真模拟是计算机图形学中的一个重要研究方向，在许多领域尤其是电影、游戏中有着广泛的应用。在这些应用中，除绘制出具真实感的流体动画外，有时还需要以艺术化的手

学位

仿真模拟计算机图形学流体动画交互操作流体模拟非真实感风格三维模型

构件库反馈管理及运行时应用支持技术的研究

软件复用是解决软件危机的一条切实可行的途径，软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前，随着

学位

软件构件服务质量构件库反馈管理

龙芯2E系统性能分析与优化

性能分析与优化一直是计算机研究中的热点.著名的80-20原理告诉我们,程序中执行最为频繁的通常只是小部分被称为热点的代码.性能分析与优化的目的就是分析发现程序热点并使之

学位

性能分析性能计数器龙芯2E系统轮廓分析

互联网视频用户观看行为分析及应用

随着互联网带宽的优化，网络传输、视频压缩等技术的创新，视频已成为互联网最为重要的应用之一，是互联网流量主要贡献者。互联网视频访问模型不仅是视频分发缓存策略与系统设计实

学位

互联网平台视频访问用户观看行为缓存策略

高效的整体蛋白质鉴定算法研究与软件开发

最近五年内，在大量生物医学研究问题的驱动下，整体蛋白质的鉴定技术获得了快速发展:高通量的分离技术使得一次研究中可以同时鉴定到超过1，000个完整的蛋白质;高精度的质谱技术大

学位

蛋白质组学质谱技术鉴定算法软件开发

离散时间自动机模型检测工具的设计与实现

模型检测是一种自动完成性质验证的算法过程，模型检测器是模型检测算法的工具实现，可用来检验系统是否满足某些性质，如可达性、安全性等，可以及时发现问题，更改系统设计中的缺陷，避

学位

实时系统

基于多特征的中文多词术语提取技术研究

其他学术论文