英文冠词纠错方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:anlyok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理、机器学习和大数据的蓬勃发展,英文语法纠错吸引了越来越多的研究者。一个有效的英文语法纠错系统,既可以惠及成千上万的英文写作者,又可以辅助解决自然语言处理中的其他任务。在所有语法错误中,冠词错误最为常见。目前,针对冠词纠错最有效的方法是基于分类的方法,这类方法将冠词纠错任务转换为一个分类问题,其中类别标签为冠词a/an、the和null。基于分类的方法存在如下不足:一方面,用于冠词纠错的特征通常依靠经验获取,容易造成特征之间的冗余以及引入噪音;另一方面,使用One-hot编码进行特征表示,容易造成数据稀疏、维度高等问题。本文一方面,对已有工作的不足提出了改进,另一方面,探索了卷积神经网络在冠词纠错上的应用。具体地,本文内容包括以下三部分:1.基于逻辑斯蒂模型进行冠词纠错。在确定冠词可能出错的位置后,凭借经验,收集了五类用于冠词纠错的特征,为了减少在特征中引入的冗余和噪音,使用前向序列搜索算法对不常见的特征进行特征选择,然后通过逻辑斯蒂回归模型,分析和对比不同类别特征对冠词纠错的影响,其中重点分析了作者用词特征。2.利用词向量优化冠词纠错中的特征表示,并比较不同词向量在特征表示上的效果。在分析One-hot编码的不足后,本文在特征表示上进行两方面的探索:第一,对特征中的单词,直接用其对应的词向量作为特征;第二、使用聚类对特征进行压缩,对单词特征,采用布朗词聚类和K均值的方法进行聚类;而对于词性特征,采用人工设定的规则进行聚类。3.采用深度学习方法中的卷积神经网络对冠词进行纠错。为了挖掘冠词纠错更有效的特征,本文使用卷积神经网络进行冠词纠错,模型采用冠词的上下文作为特征,通过卷积和子采样从上下文单词对应的词向量中学习特征。针对模型准确率较低的不足,本文分析其中可能存在的原因,并给出一种有效的基于语言模型的后处理模块。
其他文献
随着信息化进程的深入,通信技术与计算机及其网络技术相融合,产生了一个新的研究领域一计算机支持的协同工作CSCW(Computer Supported Cooperative Work),简称计算机协同工作,计
随着各种类型多媒体数据的大量涌现,迫切需要一个统一的多媒体数据管理平台来存储和管理这些多媒体数据。因而,多媒体数据库已经成为目前国内外数据库研究的热点和难点。查询
随着全球经济一体化的发展,人们对国际化信息的渴求越来越强烈。为了解决不同语言之间的交流障碍,语音翻译应运而生。通常语音翻译由语音识别、机器翻译、语音生成三分部组成,其
粒子群优化算法(Particle Swarm Optimization,PSO算法)源于鸟群和鱼群群体运动行为的研究,是一种基于种群搜索策略的自适应随机优化算法。作为群智能的典型代表,粒子群优化
人类社会不断发展,当今社会已步入信息时代。进入90年代以来,随着移动通信技术的迅速发展和投入使用,许多计算结点已在自由移动的过程中保持网络连接,于是,“移动计算”和“
随着软件系统的日益庞大,对软件的质量要求也越来越高,性能测试作为保证软件质量的重要手段,受到人们前所未有的关注,同时,基于UML的软件设计方法也日益成为一个行业标准。因
目前,政府各个部门的业务系统各自为政,相互之间缺少信息资源共享和业务协同,造成了所谓的“信息孤岛”;另外,业务系统间存在安全边界,造成用户在访问不同应用系统时需要多次
Turbo码作为一种性能优异的信道编码方案,从提出到现在已经有20多年历史了。人们对它的理论研究已经深入到方方面面;在各个领域的通信系统里Turbo码得到了广泛的应用,取得了
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组
伴随着信息技术的高速发展,经过十多年的建设,我国电子政务建设取得了巨大的成就,政府各部门已经有很多的应用系统投入应用。但是这些系统采用不同的开发平台、不同的开发语