论文部分内容阅读
近年来,随着中国综合国力发展和国际地位的提高,越来越多的外国人开始学习汉语,这对于中国同世界各国之间的文明交流和学习合作都具有积极的意义。但第二语言学习者在学习汉语时,由于母语的负迁移等原因会产生各种各样的语法偏误,规范语法的使用是提高第二语言学习者写作水平的重要途径。对外汉语语法偏误自动诊断的意义在于发现母语负迁移导致的一些共性偏误规律,从而对对外汉语教学起到指导性作用。因此,针对第二语言学习者的语法偏误自动诊断任务的研究具有实际意义。现阶段,汉语语法偏误自动诊断的解决方案。多以Bi LSTM-CRF为基础模型,辅以特征工程、随机种子调参、模型集成或人工规则等方法进行优化。但是从近年来的评测报告和学术论文中可以发现,基础模型的诊断结果并不理想。汉语语法偏误标注语料稀少、诊断模型误报率较高等是亟待解决的问题,针对这两个问题,本文研究的主要内容包括:(1)构造了一个合成语法偏误数据集SGB(Synthetic Grammatical error data Base)以扩充训练语料。该数据集是在现有的数据增强技术的基础上,以简单文本增强法(Easy Data Augmentation,EDA)为核心思想,通过总结归纳出各类偏误的分布规律和构造特征,对构建语法偏误的领域内数据集展开了初步尝试,解决了汉语语法偏误标注语料稀少的问题。实验结果表明,将合成数据集加入到诊断模型中训练后,在偏误位置识别的F1值可以取得近8%的提升。(2)提出了一种基于管道方式的语法偏误自动诊断模型TSM(Text classification&Sequence labeling&Mask language model)。TSM在不降低精度、召回率等指标前提下,解决了传统模型中误报率较高的问题。该方法将语法偏误自动诊断任务分解成三个子任务,分别是:句子是否存在语法偏误的文本二分类任务、偏误类型及偏误位置自动识别的序列标注任务和文本纠错任务。首先使用基于BERT-Finetune的文本分类模型对句子中是否含有偏误进行二分类,然后基于融合Ro BERTa的Bi LSTM-CRF模型对句子中所含偏误的类型和位置进行预测,最后通过应用遮蔽语言模型,针对含有误代和缺失两种偏误的句子进行纠错。