论文部分内容阅读
汉语作为一种重要的交际工具逐步被世界各国人民所认可,在学习汉语的过程中,写作被许多研究者认为是评价语言学习者学习效果最有效的工具之一,但人工批改汉语作文需要大量的人力,且需要耗费较长时间,不能给语言学习者及时有效的反馈和分析。而且,汉语本身的复杂性也给人工批改增加了难度。本文旨在构建能够检测出汉语语法错误的机器学习算法模型,并将所训练出的模型应用于汉语作文语法检测系统中,以节约大量人工批阅作文的时间和人力成本,将教师从繁重而重复的评价活动中解放,与此同时使学习者能较快地得到及时客观的反馈,清晰地了解到自己在汉语学习中易犯的语法错误,对汉语学习者的自主学习起到了一定辅助作用。本文以理论和实践相结合,探索基于机器学习的汉语语法检测方法及其应用。具体工作包括(1)通过对文献进行定性数据分析,揭示近年来教育领域中不同机器学习模型的使用频次和变化趋势。(2)通过国内外研究综述,对语法检测的常用策略进行了归纳分类。(3)构建了条件随机场模型、LSTM-CRF模型和多任务学习模型这三个不同的机器学习算法模型进行汉语语法检测,并对三个模型进行评估分析,选出了效果最优的模型。(4)设计并开发了汉语作文语法检测系统,将算法模型应用于系统中。近年来,在人工智能的教育应用中,基于神经网络算法模型的占比明显高于其他方法,得到了越来越广泛的应用。在语法检测这一特定任务中,研究者们也逐渐将视线从原先基于统计的方法转移到了基于神经网络的方法。在本文构建的三个算法模型中,多任务学习模型的表现优于条件随机场模型和LSTM-CRF模型,原因是包含辅助任务的多任务学习模型从一定程度上解决了数据稀疏的问题,使得模型在标签分布不均匀的情况下也能得到较充分地训练,从而在语法错误检测任务中比其他模型有更好的表现。