论文部分内容阅读
自然语言处理技术是研究和实现人与计算机之间用自然语言进行有效沟通的理论和方法。近年来,随着计算机科学技术的发展和统计学习方法的有效应用,它已经成为人工智能和语义搜索领域的重要研究方向。对于英语文本的信息处理,如果其中的语义单元(单词与句子)存在错误,则不可避免的会影响到后续文本分析和语义理解,并最终降低实际应用系统的整体性能。因此,对英语文本中的单词与语法错误进行智能检错与纠错是自然语言处理的重点和难点之一。本文主要以大学英语短文作为研究对象,分析了其中存在的单词拼写错误和语法错误现象,对智能纠错中涉及到的数学统计模型和技术方案进行了深入的探讨,并通过权衡不同技术路线中的优缺点和实际开发的难度,实现了对大学英语短文中存在的单词和语法错误进行智能纠错。本文的研究成果主要体现在以下两个方面:1.对于单词拼写的检查与纠正,研究了非词错误中字母间的插入、丢失、替换和互换四种错误类型。重点解决了由于单词发音混淆导致的非词错误和词形多样化(如英文缩写、带连字符的复合词和专有名词等)带来的纠错问题。另外,对于真词错误,通过机器学习的方法提取语料库中的上下文语义特征,训练出真词纠正模型,并利用非词检查中的候选推荐信息,提出了基于推荐候选列表的最优组合预测算法,实验表明,该策略应用于上下文存在拼写错误的真词错误纠正的精确率达到83.78%。2.对于句子语法的检查与纠正,以文本训练集中的上下文信息为基础,结合了基于语法规则和基于统计模型的优点,对中国学生英语短文中主要存在的介词错误、句子成分残缺不全、名词的单复数不一致、单词词性混淆、主谓不一致和情态(助)动词失误等进行了分析和研究。它涉及到了句子边界消岐、单词的词性标记、命名实体识别、上下文信息提取等自然语言处理多个方面的技术。对于四六级难度的英语文本的实验表明,本文中提出的句子语法错误的检查与纠正的方案是有效的。