论文部分内容阅读
随着计算机的普及和网络资源的共享,人类已迈进了信息化的时代,我们不管处理何种类型的数据,都把计算机作为最基本的工具来使用。同样,在信息处理领域,藏文信息处理也从开始的字处理转向了自然语言的研究及处理层面。但在这个过程中,所有的信息处理技术都是在基于词的层面上进行研究及处理。而词又分为实词和虚词,其中虚词是依附于实词或语句,表示语法意义,不能单独作句法成分,而且它在不同的语境中扮演着不同的角色,因此出现了虚词的歧义问题。这在藏文信息处理领域中大大降低了藏文自动分词的准确率。面向机器时,在信息处理领域中虚词的歧义对句子的生成、句子的理解和语义的理解造成了巨大的负面影响。由此可见,研究及处理藏文虚词的歧义是信息处理中必须解决的重要内容之一,也是藏语语法研究的重中之重。本文通过传统藏文文法规则,设计出符合藏文特性的藏文树型分词算法和藏文虚词的自动识别算法,并通过建立藏文虚词消岐规则库来识别和消除虚词在藏文句子中存在的歧义。最后,实现了藏文虚词自动识别系统,使计算机消除大量藏文句子中虚词的歧义并快速识别藏文虚词、提高藏文自动分词的准确率,为准确地生成句子、句法分析、八格识别和机器翻译等的研究奠定了一定的基础。