现代汉语通用分词系统的技术与实现

来源 :北京工业大学 | 被引量 : 9次 | 上传用户:tdran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在歧义切分技术中,提出了一种切分规则库与基于歧义知识库动态校正相结合的实用歧义处理策略;在专名识别技术中,本文提出了一种专名(包括译名在内的人名、地名、企业字号、企业名和机构名等)一体化、快速识别方法。从大规模真实语料的测试结果来看,歧义切分处理的精度、专名识别的正确率和召回率均达到了较高的水平。 其次,本文概要的分析了通用型分词系统的难点,阐述了GPWS的解决方案,给出了通用分词系统的评价标准;并提出了交互式分词系统的概念,给出了一种简单的交互式方法。取得了良好的效果。
其他文献
Internet的出现与快速发展,要求软件企业能够开发电子商务系统.商业建模与实现工具一个电子商务开发平台的一部分,商业建模与实现工具主要的任务是完成处于J2EE的业务逻辑层
定量蛋白质组学主要研究复杂生物体内的蛋白质表达量的变化情况。正常表达的蛋白质可以保证生物的新陈代谢、维系生命,表达量不正常的蛋白质会导致如癌症等严重的疾病。定量蛋
该文研究和探讨了使用XML作为数据交换格式对Web上的数据和Web日志进行数据挖掘,从而发现关联规则.该文完成的主要工作如下:(1)完成了对基于XML的Web数据挖掘的技术研究并设
为了解决当前Internet上信息检索困难、当前模式的Web对于计算的支持很有限的情况,该文提出一种将Jini技术和移动代理等技术有效结合起来,构建统一管理信息、支持把大量设备
不同于英语,中文的词与词之间没有显著的边界标记。句法分析、机器翻译等自然语言处理任务大多以词作为基础单元。分词问题吸引了很多学者们的研究目光。以字标注为代表的有监
交通是城市场景中的重要元素。近年来,车辆运动模拟技术被广泛地应用于虚拟旅游,虚拟城市应急演练,三维场景游戏开发等。逼真的车辆个体运动模拟结果,不仅可以直观上很好地展示交
WAP(Wireless Application Protocol)是开发移动网络上类似互联网应用的一系列规范的组合.WAP协议与现在通行的互联网协议类似,但专门为小屏幕、窄带的用户装置(如移动电话)
随着云计算的普及,越来越多的服务器使用了虚拟化技术。云平台服务商的数据中心通过使用虚拟化技术实现了弹性计算,不同的用户或者任务可以共享物理资源,如CPU和硬盘。许多企
分布式对象技术已经成为建立服务应用框架的核心技术,在开发大型分布式应用系统中表现出强大的生命力.作者在参与国家863计划项目"异构分布式对象互操作模型与框架"课题的研
基于物理的人体运动合成是一种通过计算关节力矩进而驱动人体运动的计算机动画技术,在逼真人体动画制作、人体运动生物力学分析、辅助体育训练等领域起着重要的作用。本文以实