论文部分内容阅读
由于自然语言本身的灵活性以及人们对自然语言本质的认识还很肤浅,机器翻译(MachineTranslation),这个使用计算机实现文本从一种自然语言到另一种自然语言的转换处理,一直是计算机应用中一个难以很好解决的领域。为了能取得较好的翻译效果,从长期的机器翻译研究历史中发展出层次性的处理原则,即按照分词(汉语特有的)、词性标注、句法分析、词义标注、转化、生成等几个阶段,逐一进行,每一步的输出都是下一步的输入,同时,每一步都配合以一定的辅助资源,最终得到机器翻译的结果。
本篇论文首先总体介绍机器翻译研究领域的界定,接着逐一分析机器翻译的各个阶段出现的歧义问题,并对处理这些不同的歧义问题的消歧思想和算法进行研究,然后着重分析了词义分析和消歧阶段的算法和思想,并对每一算法的特点和优劣进行了深入的研究和比较,最后,提出了一种基于语料库的混合词义消歧策略,并对这种策略的提出的由来、可行性、系统的流程图、特点及继续研究下去的工作等,逐一进行了较为深入和详尽的分析。
本篇论文的主要工作如下:
1.提出了一种基于语料库的混合词义消歧策略,并对这种策略的由来、可行性、系统流程图、特点及继续研究的工作方向和内容作了较为详尽的分析和阐述。
2.针对基于实例和基于纯统计的两种不同的词义消歧策略,进行了相互比较和深入研究,在分析了每种策略的理论基础、具体做法的基础上,着重考察了这两种策略相互之间的差异性,由此得出了各种策略的适用场合,也为第一项工作,即混合策略的提出,打下了较为深厚的理论基础。
3.根据词义消歧阶段所具备的词汇资源的种类不同,按照有指导的、基于词典的和无指导的三个类别,分别进行词义消歧策略的归类研究,对每种策略的各种算法的由来、特点和具体做法和适宜的处理对象等,都进行了较为深入的比较和研究。
4.从机器翻译中可能出现的各类歧义的角度考虑,把机器翻译的过程看成是一个在不同的阶段进行不同的消歧处理的过程。这样,不仅对词义消歧这个领域进行深入的分析研究,而且对机器翻译中的其他歧义,如:分词歧义(汉语特有的)、词性歧义、句法歧义和转换歧义等,也都逐一进行了分析,并对各种相应的消歧算法进行较为系统的归类研究。
词义的消歧处理长期以来一直是机器翻译中的一个难点。同时,除了应用在机器翻译领域之外,词义消歧处理还广泛的应用于信息检索、文本分类等领域。这种基于语义理解和词义消歧基础上的信息检索和文本分类,具有更好的智能性和更高的准确性。应该说,词义消歧的研究在世界范围内已经做了很多,但相较与理想的词义消歧目标,还做的远远不够。由于词义歧义自身的特点,词义消歧处理的正确率一直不太理想,无法和词性标注等其他处理的正确率处于同一水平。