论文部分内容阅读
在英文的行文中,单词之间以空格作为自然分界符,英文可以直观的看出单词分界。而彝文只是句和段可以通过明显的标点符号来简单划界,词却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,在词这一层上,彝文比英文要复杂得多。彝文分词是把彝语中的词用明显的符号分隔开,即将连续的彝文序列按照一定的规范重新组合成词序列的过程,即使用明显的符号将词语分隔,使词与词之间有明显的界限。彝文机器翻译、篇章理解、自动摘要、文本校对、自动标注等语言处理应用离不开分词。例如将彝语翻译成其它语言,首先得提取彝语中的所有词汇,然后再对提取的彝语词汇一一对应成所要翻译的语言词汇,再按照对应的语法重组,即可得到翻译的结果。除了机器翻译以外,语言处理其它的基础建设同样离不开分词。因此,在使用计算机处理彝语之前,首先得解决分词问题。此彝文分词研究根据彝语的特性及语法特征,从基础的彝文字符编码、文本、分词标准规范、词典等为基础。在参考借鉴主流的最大正向、最大逆向和最大双向三种语言分词技术后,在Python环境下实现目前比较完整的机械分词机制与构架。文本首先结合彝语的语言特点,将特殊结构“否定词”纳入分词词典,同时也制定了一个目前较为符合彝文分词的标准。然后分析现有彝文文本内容和体裁后,根据实际情况只采用切合日常彝语语用的小说和民间故事作为分词对象。在对目前主流分词方法进行分析对比后,结合彝文分词技术的难点,说明了目前不使用统计和机器学习分词的原因。最后实现了在Python环境下的彝文处理,完成了最大正向最大逆向和最大双向匹配三种分词方法结果进行评测和对比。这个分词系统完善了机械彝文分词机制的内容,可以在以后的大量文本分词、语法、词法等研究中作为分词工具辅助使用,也为后续的彝文分词研究提供了真实客观的理论依据和数据依据。本文虽然实现彝文机械分词,但在这类分词方法中,决定分词精度和速度的因素大多,例如词典中的词数直接决定了彝文分词的准确率,同时分词词典中的词条数、计算机的处理器速度和内存直接影响了彝文分词的速度和处理效果。因此,在今后的分词研究中只有扩大分词词典中收录词汇,才能解决分词的精度。对彝文机械分词过于依赖对计算机处理器和内存的问题上,只有改进算法才能减少对计算机处理器和内存的依赖性。今后处理彝文的主要趋向是依靠计算机统计和深度学习,使用统计和深度学习方法处理彝文也更加的科学准确。因此只有保证词典、文本等软资源库,才能更理想的处理彝文分词;在建设基础材料的同时,未来彝语处理也可以借鉴目前其它自然语言的处理办法,走向语音合成,语音分析,句法分析、语义分析,文本分析、自然语言理解。