基于最大熵的汉语词性标注

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:e3e45r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词性标注是给文本中的每个词标注上正确的词性。它是自然语言处理的基础,其正确率将影响后期句法分析或组块分析的正确率。在词性标注时出现的错误会在后续自然语言处理链中被放大,正确标注词性对自然语言处理有非常重要的意义。本文的目的就是在文本分词的基础上,实现汉语词性标注,为后期词法分析和其它自然语言处理任务提供基础。本文首先阐述了汉语词性标注的研究现状及研究意义,然后在深入理解最大熵理论的基础上实现了基于最大熵的汉语词性标注系统,最后利用统计规则和词性限定方法对未登录词进行了进一步标注。利用不同模板将不同的上下文信息导入最大熵模型,构建了四个最大熵标注模型,选出具有最优标注效果的模板作为最终模板。为了简化模型,采用了三种不同的特征选取方法精简最大熵模型的候选特征,为了进一步提高词性标注正确率,采用了规则和词性限定法,结合最大熵对未登录词做了进一步标注。论文给出了最大熵标注模型的算法,并给出了标注结果,及对未登录词进一步标注后的结果。词性标注比较复杂,由于最大熵可以充分利用词的不同层次的上下文信息,能较好地解决复杂问题,因此用最大熵进行词性标注,取得了较好的效果。实验结果表明,用最大熵进行中文词词性标注是有效的:开试测试正确率为94.96%,未登录词的标注正确率为63.32%。本文的研究成果可应用于实际翻译系统中,为自然语言后期处理提供了基础。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。
其他文献
目的评估比较超声和磁共振成像(MRI)在胎盘植入诊断中的应用价值,以便提高胎盘植入诊断的准确性。方法选取2014年1月至2019年7月在安徽医科大学第一附属医院临床产检可疑胎盘
本文以小学古诗教学中审美意识的培养为重点进行阐述,以小学语文古诗教学现状为依据,首先简析小学古诗教学中审美教育的价值,其次以《山居秋暝》为例,从音韵美、言语美、绘画
作为医疗建筑师,我们不能治愈疾病,但我们可以通过设计来优化治疗和教学的环境,同时协助患者康复。建筑环境在许多方面都影响着健康,如日照、自然、环境的多样性等等。我们认
针对某桥梁工程实际情况,对其连续梁拱组合上部结构施工关键技术进行深入分析,包括连续梁施工和钢管混凝土拱施工,提出施工中需要注意的要点。该工程连续梁拱组合施工顺利完
在和谐劳动关系背景下,以同煤集团下属3矿为案例,测量企业文化类型,分析各类型之间的结构关系。运用问卷调查方式采集数据,分析发现:同煤集团以科层型文化为主,支持型文化影
中医药文化的国际传播因国家实施"一带一路"战略获得了良好的机遇,但是亦面临着困难和挑战。中医药文化的国际传播要融入"一带一路"建设战略框架,应该树立以国家利益为导向、