论文部分内容阅读
随着自然语言处理、机器学习和大数据的蓬勃发展,英文语法纠错吸引了越来越多的研究者。一个有效的英文语法纠错系统,既可以惠及成千上万的英文写作者,又可以辅助解决自然语言处理中的其他任务。在所有语法错误中,冠词错误最为常见。目前,针对冠词纠错最有效的方法是基于分类的方法,这类方法将冠词纠错任务转换为一个分类问题,其中类别标签为冠词a/an、the和null。基于分类的方法存在如下不足:一方面,用于冠词纠错的特征通常依靠经验获取,容易造成特征之间的冗余以及引入噪音;另一方面,使用One-hot编码进行特征表示,容易造成数据稀疏、维度高等问题。本文一方面,对已有工作的不足提出了改进,另一方面,探索了卷积神经网络在冠词纠错上的应用。具体地,本文内容包括以下三部分:1.基于逻辑斯蒂模型进行冠词纠错。在确定冠词可能出错的位置后,凭借经验,收集了五类用于冠词纠错的特征,为了减少在特征中引入的冗余和噪音,使用前向序列搜索算法对不常见的特征进行特征选择,然后通过逻辑斯蒂回归模型,分析和对比不同类别特征对冠词纠错的影响,其中重点分析了作者用词特征。2.利用词向量优化冠词纠错中的特征表示,并比较不同词向量在特征表示上的效果。在分析One-hot编码的不足后,本文在特征表示上进行两方面的探索:第一,对特征中的单词,直接用其对应的词向量作为特征;第二、使用聚类对特征进行压缩,对单词特征,采用布朗词聚类和K均值的方法进行聚类;而对于词性特征,采用人工设定的规则进行聚类。3.采用深度学习方法中的卷积神经网络对冠词进行纠错。为了挖掘冠词纠错更有效的特征,本文使用卷积神经网络进行冠词纠错,模型采用冠词的上下文作为特征,通过卷积和子采样从上下文单词对应的词向量中学习特征。针对模型准确率较低的不足,本文分析其中可能存在的原因,并给出一种有效的基于语言模型的后处理模块。