基于Python的彝文词典分词技术研究

来源 :西南民族大学 | 被引量 : 2次 | 上传用户:tank1st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在英文的行文中,单词之间以空格作为自然分界符,英文可以直观的看出单词分界。而彝文只是句和段可以通过明显的标点符号来简单划界,词却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,在词这一层上,彝文比英文要复杂得多。彝文分词是把彝语中的词用明显的符号分隔开,即将连续的彝文序列按照一定的规范重新组合成词序列的过程,即使用明显的符号将词语分隔,使词与词之间有明显的界限。彝文机器翻译、篇章理解、自动摘要、文本校对、自动标注等语言处理应用离不开分词。例如将彝语翻译成其它语言,首先得提取彝语中的所有词汇,然后再对提取的彝语词汇一一对应成所要翻译的语言词汇,再按照对应的语法重组,即可得到翻译的结果。除了机器翻译以外,语言处理其它的基础建设同样离不开分词。因此,在使用计算机处理彝语之前,首先得解决分词问题。此彝文分词研究根据彝语的特性及语法特征,从基础的彝文字符编码、文本、分词标准规范、词典等为基础。在参考借鉴主流的最大正向、最大逆向和最大双向三种语言分词技术后,在Python环境下实现目前比较完整的机械分词机制与构架。文本首先结合彝语的语言特点,将特殊结构“否定词”纳入分词词典,同时也制定了一个目前较为符合彝文分词的标准。然后分析现有彝文文本内容和体裁后,根据实际情况只采用切合日常彝语语用的小说和民间故事作为分词对象。在对目前主流分词方法进行分析对比后,结合彝文分词技术的难点,说明了目前不使用统计和机器学习分词的原因。最后实现了在Python环境下的彝文处理,完成了最大正向最大逆向和最大双向匹配三种分词方法结果进行评测和对比。这个分词系统完善了机械彝文分词机制的内容,可以在以后的大量文本分词、语法、词法等研究中作为分词工具辅助使用,也为后续的彝文分词研究提供了真实客观的理论依据和数据依据。本文虽然实现彝文机械分词,但在这类分词方法中,决定分词精度和速度的因素大多,例如词典中的词数直接决定了彝文分词的准确率,同时分词词典中的词条数、计算机的处理器速度和内存直接影响了彝文分词的速度和处理效果。因此,在今后的分词研究中只有扩大分词词典中收录词汇,才能解决分词的精度。对彝文机械分词过于依赖对计算机处理器和内存的问题上,只有改进算法才能减少对计算机处理器和内存的依赖性。今后处理彝文的主要趋向是依靠计算机统计和深度学习,使用统计和深度学习方法处理彝文也更加的科学准确。因此只有保证词典、文本等软资源库,才能更理想的处理彝文分词;在建设基础材料的同时,未来彝语处理也可以借鉴目前其它自然语言的处理办法,走向语音合成,语音分析,句法分析、语义分析,文本分析、自然语言理解。
其他文献
利用US/三维电极电Fenton体系对孔雀石绿印染废水进行处理,采用Fe/C电极且活性炭与纳米铁投加质量比为3:1时,通过试验考察三维电极电Fenton在超声强化作用下对印染废水的处理
针对Agathoklis等提出的具有实际意义的n维(n-D)离散系统,在求解了n-D多项式矩阵方程的基础上,给出了n-D动态反馈补偿器的构造方法及相应的求解算法,并以算例加以说明.
MARS人工肝能清除体内脂溶性、水溶性代谢毒素,其机制是使用"分子吸附再循环(MARS)系统"替代肝脏解毒功能.同时,对于肾脏代谢物质也有一定的清除作用.可以有效地改善肝、肾脏
利用一些最新结果,讨论了带黏弹性的半线性双曲型方程全局吸引子的上半连续性.
处理好执政党与法律的关系是关系到党和国家兴衰成败的重要问题。关于党法关系,党内曾经存在一些错误思想和工作方法,为此我们应进一步深刻领会邓小平关于党法关系的思想,明