【摘 要】
:
该文在统计方法下,围绕汉语句法分析面临的这两个主要问题进行深入研究.具体地讲,该文研究从如下四个方面展开:1、对比分析了四种主流句法分析模型在汉语分析中的性能,从理论
论文部分内容阅读
该文在统计方法下,围绕汉语句法分析面临的这两个主要问题进行深入研究.具体地讲,该文研究从如下四个方面展开:1、对比分析了四种主流句法分析模型在汉语分析中的性能,从理论和实验两方面研究了这些模型的特点,揭示了造成这些模型在分析英语和分析汉语时性能差异的原因.2、针对汉语语料库规模较小和汉语语法灵活的特点,提出了一种基于最大熵原理的全局寻优的汉语句法分析模型.该模型在引入上下文来解决结构歧义的同时,通过特征选择策略和交叉校验方法,将模型的参数确定在较小的范围,一定程度地解决了学习不足与学习过度之间的矛盾.3、设计高效句法分析算法是句法分析模型可行与否的关键,该文提出了基于RETE网的句法分析算法满足了该文句法分析模型的需要.4、针对汉语语法层次模糊的特点,提出了一种融合分词、词性标注的一体化的句法分析框架.以基于最大熵的全局寻优的统计模型为基础,以字作为句法分析的输入,采用不确定的分词和词性标注策略,使汉语分词、词性标注和句法分析三个阶段统一于一个整体,实现真正的全局寻优.
其他文献
数字图像盲水印技术, 就是将水印信息秘密地隐藏于数字图像中, 隐密图像经网络传输后再从中提取或检测水印信息, 且无需参照原始载体图像。目前的盲水印技术存在很多问题, 例
网格是解决科学计算、工程计算和商业计算等大规模计算的平台。它是下一代互联网技术,把互联网合成一台巨大的超级计算机,从而实现资源的全面共享。在网格计算中,任务管理、
目前,Internet迅速普及,Web应用的复杂性和规模都在不断增加和扩大,呈现出高度灵活性、可靠性和个性化等特点,这就给Web应用开发带来了新的挑战。本文通过分析后认为,在现有的Web
空间数据挖掘(SDM)或空间知识发现,是从大量的空间数据库中抽取隐含的知识、空间关系或非显式存储在数据库中有意义的特征或模式。此技术在理解空间数据、获取空间与非空间数
随着计算机网络的普及,上网用户不断增多。一些热门网站的点击率每天超过一亿。用一台服务器为所有用户提供服务几乎是不可能的,所以,只有采用负载均衡技术在多个提供相同服务的
本文的工作是在北京大学网络实验室、北京大学计算语言所与北京大学一IBM创新研究院联合研发的天网知名度系统(Fame)中开展的。针对原有系统名人网页相关度评价中存在的问题,
本文设计实现了一套Web数据集成工具XMLToyBricks中,。首先,观察到Web环境下,用于交换的数据信息相当多的都是来源于关系型数据库或者是表现关系特性的数据。针对这种现象,设计了
本文基于青鸟面向对象开发工具JBOO4.0的研发工作,结合当前建模工具研发过程,探讨在面向对象建模工具的开发中如何快速有效的开发新的建模工具,支持不同的开发规范以及如何更好
随着网络应用的不断扩大,对网络服务器性能的要求也越来越高。相对于传统的高性能计算机,集群系统以良好的性价比和高可扩展性等优点,逐渐成为主流的网络服务器。集群服务器
本文主要从以下四方面研究构件库互联技术: 1.采用一种基于对等网络(P2P)技术的层次性体系结构,避免单个结点负载过大和广播机制等问题。 2.使用LDAP目录服务器实现管理