基于PAT-Tree的领域关键词自动提取

来源 :北京大学 | 被引量 : 0次 | 上传用户:dongjun1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文介绍了作者开发的面向领域的关键词提取系统.面向领域的关键词提取系统自动提取特定领域语料库中的领域关键词,并且可以发现普通词典里面没有的新词.提取过程基于从原始文本中得到的统计信息,取出符合筛选条件的字符串.总体来说分为四个阶段,分别为:在原始文本上建立PAT-Tree,获取文章词频信息;在PAT-Tree上抽取候选关键词;对关键词过滤以及选取领域关键词.我们把提取的重点放在了自动过滤符合统计条件的字符串,进一步精选候选关键词上面.我们在精选过程中采用了新的过滤手段,并借鉴了其它方法的优点,有机地与系统结合在一起,形成了一套综合的过滤手段,有效地提高了精确度,减少了计算量.系统的另外一个特色,是使用分治法的思想来处理密集计算,高效地建立PAT-Tree,一方面为提取领域关键词提供了方便,另一方面也使得系统能够用分布式计算的方法来实现,提供了进一步扩大处理能力的空间.试验结果表明,系统能够高效地提取领域关键词,并且取得了良好的效果,达到了预期目的.
其他文献
地貌是地理信息中最基本的要素之一,晕渲图是最常用、最直观的一种地貌表示方式。晕渲图的绘制主要依赖于三个基本原理:几何光学原理、半色调原理、空中透视原理。随着科技的
随着计算机处理速度的提高、存取设备容量的增大,图像数字化和图像显示设备的越来越普及,价钱也越来越便宜,图像处理技术在军事、工业、医学等领域中获得了越来越广泛的应用.
生物识别技术作为最简单易行、安全可靠的身份认证手段,正在占据着来越多的市场份额;同时,生物识别领域的研究也正方兴未艾.掌纹识别技术作为生物识别技术的一个分支,有其特
城市排水设施是市政建设的基础设施,随着城市排水设施的不断完善,建立一个实用、高效的排水管网地理信息系统,提高排水系统管理的效率、质量和水平,是现代城市发展的要求.搞
移动IP是IETF移动IP工作组在[RFC2002]文档中定义的一种针对移动节点在网络上漫游的网络层协议。它的最重要的特色是使得移动终端能够以一个固定不变的IP地址在整个Internet
该文系统的讨论了计算机网络安全防范的基本原理、方法以及网络安全的研究现状.分析了目前在涉密网络中普遍存在的主要问题,并指出了涉密网络在敏感信息保护、网络违规操作、
条件执行在降低转移指令影响提高处理器性能方面是一种比较有效的方法.它不但可以降低指令控制流变换的不可预测性、达到平缓流水线中的指令流功能,而且还能够帮助编译器在更
数据挖掘是从海量数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的非平凡过程,是一门新兴的边缘学科。它汇集了来自机器学习、模式识别、数据库、统计学、
随着互联网的兴起,大型分布式计算从集中在一地发展为分布到若干在地理上分散、由高速网络互连的高性能站点,甚至分布到位于网络边缘的成千上万台桌面计算机。分布式计算的这一
通过加固实现防护的传统安全观念使得计算机安全成为一种二值的概念:任一给定时刻,系统要么是安全的,要么就是不安全的.惨痛的教训一次次告诉人们,任何现实可行的系统都不可