基于管道方式的对外汉语语法偏误自动诊断研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:liucheng333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着中国综合国力发展和国际地位的提高,越来越多的外国人开始学习汉语,这对于中国同世界各国之间的文明交流和学习合作都具有积极的意义。但第二语言学习者在学习汉语时,由于母语的负迁移等原因会产生各种各样的语法偏误,规范语法的使用是提高第二语言学习者写作水平的重要途径。对外汉语语法偏误自动诊断的意义在于发现母语负迁移导致的一些共性偏误规律,从而对对外汉语教学起到指导性作用。因此,针对第二语言学习者的语法偏误自动诊断任务的研究具有实际意义。现阶段,汉语语法偏误自动诊断的解决方案。多以Bi LSTM-CRF为基础模型,辅以特征工程、随机种子调参、模型集成或人工规则等方法进行优化。但是从近年来的评测报告和学术论文中可以发现,基础模型的诊断结果并不理想。汉语语法偏误标注语料稀少、诊断模型误报率较高等是亟待解决的问题,针对这两个问题,本文研究的主要内容包括:(1)构造了一个合成语法偏误数据集SGB(Synthetic Grammatical error data Base)以扩充训练语料。该数据集是在现有的数据增强技术的基础上,以简单文本增强法(Easy Data Augmentation,EDA)为核心思想,通过总结归纳出各类偏误的分布规律和构造特征,对构建语法偏误的领域内数据集展开了初步尝试,解决了汉语语法偏误标注语料稀少的问题。实验结果表明,将合成数据集加入到诊断模型中训练后,在偏误位置识别的F1值可以取得近8%的提升。(2)提出了一种基于管道方式的语法偏误自动诊断模型TSM(Text classification&Sequence labeling&Mask language model)。TSM在不降低精度、召回率等指标前提下,解决了传统模型中误报率较高的问题。该方法将语法偏误自动诊断任务分解成三个子任务,分别是:句子是否存在语法偏误的文本二分类任务、偏误类型及偏误位置自动识别的序列标注任务和文本纠错任务。首先使用基于BERT-Finetune的文本分类模型对句子中是否含有偏误进行二分类,然后基于融合Ro BERTa的Bi LSTM-CRF模型对句子中所含偏误的类型和位置进行预测,最后通过应用遮蔽语言模型,针对含有误代和缺失两种偏误的句子进行纠错。
其他文献
区块链跨境支付指利用区块链技术从事跨境支付活动,包括数字货币和跨境数据报文服务两种形式。数字货币是否属于货币,跨境数据报文服务是否属于跨境金融服务,二者是否能够适用当前国际监管框架,监管实践中存在诸多争议。当前各国对于区块链跨境支付监管存在差异。一方面,缺乏成文法律,监管主体和监管对象缺乏明确规定,导致区块链跨境支付的监管缺乏合法性;另一方面,由于各国监管理念不一致,对监管标准的规定缺乏针对性,且
学位
学位
学位
学位
受全球气候变化和人类活动双重因素的影响,水资源问题愈发严峻,给社会经济的发展和生态文明的建设带来了极大的潜在危害。在极端气候和下垫面变化的影响下,流域水土流失严重、洪涝灾害频发、水资源日益枯竭等问题已引起了人们的高度重视。因此,在分析流域径流量变化特征的基础上,分析气象因子和土地利用等因素对径流量的影响程度,模拟并预测流域未来径流量的变化情况,对缓解流域水资源短缺、水土保持措施的制定、旱涝灾害的防
四旋翼无人机因其机动灵活、可垂直起降以及适应特殊复杂环境下飞行等特点而备受关注。近年来被广泛应用于军事、工业和民用领域,尤其在航拍、空中巡检和目标识别追踪等方面的应用更为显著。这些应用要求无人机具有一定的自主飞行导航能力。同时,复杂飞行环境意味需要有更好的飞行控制系统保证无人机的稳定飞行。无人机飞行时通常会受到外界环境各种因素,尤其是风场的影响。为确保飞行稳定,实现无人机在环境变化时飞行轨迹和姿态
学位
学位
学位