规则与统计相结合的英语词性标注系统的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词性标注是机器翻译过程中的关键环节,其主要作用是确定句子中各单词的词性并加以标注。词性标注研究的重点是如何确定句子中兼类词的词性。词性标注技术同样在文本自动检索、文本分类、文本识别、语音识别等实际应用中有着重要的作用。 本文首先分析了基于规则和基于统计的词性标注方法,比较全面的对比了两种方法的特点。然后,系统介绍了基于N元概率模型和隐马尔科夫模型(HMM)的词性标注方法。最后,实现了一个基于隐马尔科夫模型的英语词性标注系统。 本文引入了规则与统计相结合的处理机制,解决未登录词参数难以直接获取的问题;提出了短语实例优先处理的标注策略,准确确定短语中各单词的词性,从而较好地解决了兼类词词性标注的问题。综合以上两种方法,获得了良好的处理效果。
其他文献
入侵检测技术是一种通过主动检测来发现计算机网络中异常行为的技术,主要方法是采集计算机网络以及系统中的数据信息和系统记录,对这些数据进行分析从而发现异常。近几年关于入
随着因特网业务量的增长以及各种网络多媒体应用(视频会议、视频点播、IP电话、远程教育等)的出现,传统的“尽力而为”服务已经无法满足目前人们对网络传输不断增长的需求。区
双边系统的协商策略机制是目前MAS(Multi-Agent System)研究的重要方向。协商策略研究关注的一个重要方面,就是协商中的动态因素和不确定因素。这方面的研究包括:基于博弈论的
入侵检测技术是一种主动的信息安全保障措施,已成为现代计算机系统安全技术中的研究热点。它的主要任务是按照一定的策略,对网络的运行状况进行监视,尽可能发现各种攻击行为,以保
随着国际形势的复杂多变、新时期对军队的建设不断提出新的课题,在各国军力日益比拼信息化的前提下,我国军队建设也面临许多新情况、新问题。无时不在受到日益增长的国际形势需
随着社会经济的飞速增长和IT技术的迅猛发展,越来越多的单位的关键业务和日常工作将实现信息化,并通过提高信息化水平实现对内提高经营水平、对外提高服务水平的目的。由于各企
随着Internet的日益完善和电子商务的广泛应用,如何快速、高效地进行协商是智能agent研究的一个重点。协商的目的就是协商的双方或多方达成一致,并获取利益。达成一致要靠协商
信息网络技术的迅速发展,使信息成为重要的战略资源,也确立了信息安全在信息技术中的核心地位。密码安全与密码盗窃的斗争更加激烈。另一方面,社会信息化对密码保护提出了新的更
IPSec(IP Security)为IPv4和IPv6提供可互操作的、高性能的、基于密码学的通信安全。Internet密钥交换协议(IKE Internet Key Exchange)是IPSec协议族的重要组成部分,其主要功
语义Web服务是语义Web和Web服务相结合的产物,通过赋予Web服务以语义信息来实现服务的自动发现、调用和组合。语义Web服务搜索是语义Web服务研究领域的一个重要的内容,在语义We