【摘 要】
:
在自然语言处理领域中,标准n元文法(n-gram)是最常使用的统计语言模型。它具有简单、高效、鲁棒的特点,是自动语音识别、拼音输入法等应用的重要组成部分。但是在实际应用中,
论文部分内容阅读
在自然语言处理领域中,标准n元文法(n-gram)是最常使用的统计语言模型。它具有简单、高效、鲁棒的特点,是自动语音识别、拼音输入法等应用的重要组成部分。但是在实际应用中,由于受到训练语料和语言模型规模的限制,n元文法存在两点不足。一是受到相邻词历史的限制,二是n值只能限定在很小的范围内。这两点不足阻碍了n元文法对句子中长距离信息的建模能力。为此,本文提出了变元依存类语言模型,有效改善了这一问题。
第一,将依存句法分析方法引入n元文法语言模型中,建立依存语言模型(dependency language model)。该方法改善了n元文法中“相邻词历史”的限制,利用词与词之间的依存关系,对句子中的长距离信息建模。为了验证模型的有效性,本文设计并实现了拼音输入法。实验结果表明,与标准n元文法相比,该模型可以使字错误率相对下降4.19%。
第二,采用基于熵值的裁剪方式构造变元依存语言模型(variable dependencylanguage model)。该模型在依存语言模型的基础上突破了词历史为3的局限,可以在保持模型大小不变的前提下,有效裁剪模型中冗余的低阶d元文法条目,代之以高阶d元文法,从而进一步使语言模型更有效的获取长距离信息。实验证明,采用这种方法能使拼音输入法的首选字错误率进一步下降相对6.68%。
第三,采用基于互信息值的二元合并方式构造长音节词。该方法可以缓解模型词典中具有相似同音词频率的文法条目的混淆问题。实验证明,长音节词的引入可以使拼音输入法的首选字错误率进一步下降相对6.77%。
第四,在变元依存语言模型基础上采用类语言模型思想,构建变元依存类语言模型。该模型针对拼音输入法中的人名识别进行建模。改进后的模型,首选字错误率进一步下降相对6.15%。
综上所述,与标准n元文法相比,变元依存类语言模型的首选字错误下降绝对值1.78%,相对21.9%.
其他文献
随着网络应用及业务的不断发展,用户和运营商不仅要求光网络能够提供巨大的带宽资源,而且能够动态地分配网络资源。由于光交换能够有效满足上述要求,它已经逐渐成为近年来的研究
随着无线通信的发展,IEEE802.16e具有标准化程度高、数据传输速度快、覆盖范围广、扩展能力强、组网灵活等优点,作为宽带无线接入系统逐渐在高速互联网接入、各种高速数据、语
目前,遥感影像几何校正主要通过严格物理模型和有理函数(通用成像)模型完成。严格物理模型需要利用精确的星历参数来构建,精度高,但严重依赖传感器,更新维护复杂。有理函数模
现代大多数酒店都是提供食、住、娱一条龙服务,然而不可避免的在顾客入住时会对酒店的服务存在意见和建议,能否有效的处理顾客的反馈,关系到酒店的利益和长远发展。现在酒店
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
紫外光通信采用日盲区波段(200nm至280nm)紫外光作为载波,在大气的吸收和散射作用下进行数据传输,是一种具有低窃听率、高抗干扰、非视距传输等特点的新型通信方式,是常规军
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
鹅观草属Roegneria C.Koch、披碱草属Elymus L.和仲彬草属Kengyilia Yen et Yang是禾本科Poaceae小麦族Triticeae Dumortier三个重要多年生属。许多物种是优良的牧草;有些种类还
大蒜病毒病害是造成其产量损失和品质下降的重要原因,侵染大蒜的植物病毒主要包括马铃薯Y病毒属(Potyvirus)的洋葱黄矮病毒(Onion yellow dwarf virus,OYDV)、韭葱黄条病毒(L
生物湿法冶金(biohydrometallurgy)是在湿法冶金的基础上利用微生物的新陈代谢作用或其产物对浸出进行强化的工艺,与传统冶炼工艺相比,它有能耗低、综合利用资源、投资和操作