大学英语短文单词语法错误纠错模型研究

被引量 : 1次 | 上传用户:a13692624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术是研究和实现人与计算机之间用自然语言进行有效沟通的理论和方法。近年来,随着计算机科学技术的发展和统计学习方法的有效应用,它已经成为人工智能和语义搜索领域的重要研究方向。对于英语文本的信息处理,如果其中的语义单元(单词与句子)存在错误,则不可避免的会影响到后续文本分析和语义理解,并最终降低实际应用系统的整体性能。因此,对英语文本中的单词与语法错误进行智能检错与纠错是自然语言处理的重点和难点之一。本文主要以大学英语短文作为研究对象,分析了其中存在的单词拼写错误和语法错误现象,对智能纠错中涉及到的数学统计模型和技术方案进行了深入的探讨,并通过权衡不同技术路线中的优缺点和实际开发的难度,实现了对大学英语短文中存在的单词和语法错误进行智能纠错。本文的研究成果主要体现在以下两个方面:1.对于单词拼写的检查与纠正,研究了非词错误中字母间的插入、丢失、替换和互换四种错误类型。重点解决了由于单词发音混淆导致的非词错误和词形多样化(如英文缩写、带连字符的复合词和专有名词等)带来的纠错问题。另外,对于真词错误,通过机器学习的方法提取语料库中的上下文语义特征,训练出真词纠正模型,并利用非词检查中的候选推荐信息,提出了基于推荐候选列表的最优组合预测算法,实验表明,该策略应用于上下文存在拼写错误的真词错误纠正的精确率达到83.78%。2.对于句子语法的检查与纠正,以文本训练集中的上下文信息为基础,结合了基于语法规则和基于统计模型的优点,对中国学生英语短文中主要存在的介词错误、句子成分残缺不全、名词的单复数不一致、单词词性混淆、主谓不一致和情态(助)动词失误等进行了分析和研究。它涉及到了句子边界消岐、单词的词性标记、命名实体识别、上下文信息提取等自然语言处理多个方面的技术。对于四六级难度的英语文本的实验表明,本文中提出的句子语法错误的检查与纠正的方案是有效的。
其他文献
2005年1月至2007年12月,采用组织学和实验生态学方法对大竹蛏(Solen grandisDunker)的性腺发育、生殖周期、肥满度、胚胎发育、幼虫发育及变态等进行了研究。结果表明,大竹蛏
目的:痛经指月经前后或行经期间出现下腹疼痛、坠胀感,甚至痛及腰骶,每随月经周期而发,严重者可伴恶心呕吐、冷汗淋漓、手足厥冷,甚至晕厥,给工作生活带来影响。痛经可分为2
RFID技术作为自动识别技术的一个重要分支,近年来得到了非常快速的发展,并被应用到多个领域。但是对于RFID系统,目前还存在着许多的问题需要解决,这些问题正是阻碍RFID系统获
由于全球车辆保有量的逐渐上升,汽车排放及噪声给人们居住环境造成了严重污染。在汽车的各个组成部分中,发动机总成是汽车排放和噪声的主要源头,而排气系统对于控制发动机传
供应链金融改变了银行对单一企业授信的传统,通过对供应链上下游交易的把握,并借助供应链上核心企业的资信,为其上下游中小企业提供贷款融资便利。供应链金融一诞生就成为银
随着工业的发展,有机硅产品在人们的生活和生产中起到越来越重要的作用,成为不可或缺的化工材料。以过渡金属为催化剂的硅氢加成反应是合成硅-碳官能团有机硅的主要途径,因此
18世纪,英国上流社会出现一股赴欧洲大陆游历学习的热潮.这一现象有其深刻的社会历史根源,对英国的历史发展产生了广泛、深远的影响.它是近代早期英国社会发展的一个重要内容
摘要:在现代经济活动之中,随着信用关系(即债务债权关系)已经成为一种最常见、最普遍的经济关系,企业信用已逐步成为当代经济链条中的核心。相应地企业信用风险一方面成为企业
本文以绿色施工为研究对象,将工程建设全过程划分为施工准备、施工实施和竣工验收三个阶段,开展了基于施工全过程的绿色施工评价体系研究。建筑业是国民经济发展的支柱产业,