高精度分词系统研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:c948221078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词是中文信息处理各种应用系统的一个不可或缺的模块。二十年来国内许多研究人员对分词技术进行了大量研究,并取得了一定的成果,但从实用化角度来考察仍不尽人意。论文从多个方面讨论了一个高精度分词系统的构造过程,以及如何来提高和衡量分词的正确性。 论文首先考虑的是一个系统的软件架构。高精度的分词系统将会采用多种多样的方法,需要多种多样的信息,如何将这些方法、这些信息集成到一个统一的系统中,这是首先需要解决的问题。为此,论文提出了一个以分词图为核心数据结构的可扩展系统框架。实践表明该框架结构清晰,具有很好的可扩展性和可维护性,可以兼容目前主流的分词方法。 在这个框架的基础上,论文采用了基于N元模型的通用消歧方法,并对该模型的几个方面进行了研究。论文对一元模型、二元模型以及二元模型的各种平滑方法进行了比较研究,也对N元模型的消歧性能和基于正向逆向最大匹配方法进行了比较,还对N元模型的消歧性能在不同的训练库规模下的表现进行了研究。 此外,本论文在对分词系统的特点分析基础上,提出了评测和错误驱动的系统开发过程。在每次修改了系统之后,都要进行评测,根据评测的结果决定接受修改或者放弃修改。这种方法保证了对系统所做的修改是有效的,从而逐步提高系统的正确性。
其他文献
社会正朝着信息化和数字化的方向迅速发展,计算机和网络的应用日趋广泛,人们已经习惯于利用计算机和网络处理数据,接收信息,相互交流。然而,由于计算机和网络自身互联开放的特性,需
随着电子商务的发展和信息网络时代的到来,物流的发展已经引起许多企业的高度重视。物流配送是物流中一个直接与消费者相连的环节,在物流系统中占有重要的地位。配送车辆优化调
随着网络信息的容量逐日膨胀,信息过载已经成为一个严峻的问题。如何使访问互联网上的信息像本地数据库信息查询一样方便、准确、快捷,是一个迫在眉睫的问题,也是Web信息挖掘的
网格技术成为当今世界的研究热点,开发基于网格技术的应用能更好地解决目前面临的一些科学难题。地震资料处理解释涉及到大量复杂的运算和海量的数据存取,需要快速的计算机系统
进化神经网络算法在人工智能以及设计游戏中非玩者角色(Non-playablecharacter-NPC)智能领域中越来越引起人们的注目。利用进化神经网络算法来设计游戏非玩者角色智能,能够让
三维地形的可视化在虚拟现实、三维GIS、地形漫游、城市规划等领域有着广泛的应用。但随着数字测量技术的飞速发展,人们可以获取到精度越来越高的地形数据,相应采集到的数据量
  为了解决计算机网络中出现身份认证的问题,联合身份管理(FIM)技术应运而生,很多服务商都在积极搭建基于不同联合身份管理技术的统一身份认证系统。这些身份认证系统虽然可
目前在Web图形数据服务方面所面临的主要问题是:服务所面向的客户端已经不仅仅是有线网络的终端,还要兼顾无线网络中的移动设备。论文设计了一种Web图形数据发布模型,能够使图形
网络地址转换器(NAT)和防火墙是在Internet中得到了广泛应用的设备,对这些设备和软件的引入,主要是为了解决网络上的安全问题,以及Ipv4的地址资源短缺问题。然而,对NAT和防火墙的
本文对数字作品版权保护中的数字水印算法进行了研究。文章阐述了数字水印技术的基本原理、应用领域和发展现状;论述了数字水印技术在数字作品版权保护方面的重要意义;分析了目