【摘 要】
:
本文以两种黏着语维吾尔语和蒙古语为研究对象,介绍了基于最大后验概率模型非监督式形态切分方法。该模型是以最小描述长度原理为基础,视形态丰富的语言为词素编码
【机 构】
:
中国科学院合肥智能机械研究所安徽合肥230031中国科学技术大学信息科学技术学院安徽合肥230027中国科学院合肥智能机械研究所安徽合肥230031中央民族大学蒙古语系北京100081
【出 处】
:
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
论文部分内容阅读
本文以两种黏着语维吾尔语和蒙古语为研究对象,介绍了基于最大后验概率模型非监督式形态切分方法。该模型是以最小描述长度原理为基础,视形态丰富的语言为词素编码的文本序列。形态切分实质则是由蒙古语的文本序列找到一个词素集合,且要求该集合能够高效的对形态丰富文本语料进行编码。然而最大后验概率模型无法根据特定的语言进行调整,鉴于此本文提出在最大后验概率的基础上加入权值参数,并采用少量人工切分的语料进行参数调整的方法。实验显示,最大后验概率模型可以较好的对维吾尔语和蒙古语进行形态切分,加入权重参数后,模型能更好够适特定的语言,使切分准确率、召回率和F值均有了进一步的提高。
其他文献
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节
交通工程行业是我国的支柱行业,对于很多地方的居民生产、生活条件改善,都会产生较大的影响,为了在日后的发展中取得更好的成绩,需要有效应用先进的技术手段,提高技术的可靠性、可
对于生产来说,设备是必不可少的硬件,它的优劣与否直接影响着生产的效果,可以说,它统领着整个生产过程,是贯穿于生产线上的脉搏,决定生产的正常运营。但是该设备并不是不坏之身,在恶
随着城市化进程的不断加快,使土木工程建筑随着建筑工程项目的增多也在不断的增加。在整个土木工程建筑中,混凝土材料占据着重要的地位,所以也受到了人们的广泛关注。因此,提高混
CFG桩即是水泥粉煤灰桩,它是由水泥、粉煤灰、碎石等混合料加水拌和而成的高粘结强度桩。通过在天然地基中设置一定比例的CFG桩体,并设置一定厚度的褥垫层,由桩、桩间土和褥垫层
本文首先在对目前自然语盲处理中计算机辅助翻译系统的思想和设计做了简要描述的基础上,提出了目前针对于汉藏双语的计算机辅助翻译系统中汉藏双语平行语料库的设计方案,以及
本文以汉、维、哈、柯等具有多种书写方向的多文种电子词典软件系统开发为背景,首先指出了其中与语种相关的词语书写方向识别,词语的文种识别,提出了相应的解决方案:通过XML
本文首先对传统测量方法与RTK定位技术的优劣进行了分析,并提出了几条RTK在测量放线中的技术要点。
本文提出一种蒙古语连续多词单元(Consecutive Multi-WordUnits)的自动识别方法,用以辅助语言学工作者在蒙古语文本中对连续多词单元进行识别和标注。首先结合汉蒙词语对齐任
在工民建工程实际施工中,混凝土是这个过程必不可少的一种重要性的建筑材料,其质量的好坏将会直接关系到整个工民建的耐久性以及抗压力。工民建混凝土质量的高低将会直接影响到