论文部分内容阅读
随着自然语言技术的发展,越来越多高校在英语作文的教学过程中使用科技化的手段提高教学效率,英语作文的自动评分技术应运而生。国内现阶段有句酷、冰果等作文自动评分系统,但是这些系统中关于作文相似度检测的算法缺乏深度和针对性。而国外的相似度检测研究主要集中在对论文和代码这一类长文本的检测。因此,本文的主要研究内容通过改进和提出更具有针对性的相似度检测算法,最终开发出一款符合当代大学生英语写作特点的英语作文相似度检测系统。为了实现该目标,本文首先调研了中国大学生英语写作的特点,根据特点对英语作文进行分类,再针对不同类别的作文进行研究。针对单词量在60及以上的长作文,作者通过改进TCUSS聚类算法,设计了一种基于WordNet语义聚类的作文相似度算法。对于单词量在60以下的短作文,本文在验证了英语停用词的稳定性后,设计了一种全新的基于停用词的作文相似度检测算法。之后,本文基于新算法,设计并实现了计算机辅助批阅系统中的英语作文相似度检测系统。最后,本文收集了一定量的语料样本,分别对上述两种算法以及整体的英语作文相似度检测系统的效果进行了验证,并与K-means算法实验结果进行对比,验证了系统的优越性。本文提出的英语作文相似度检测算法,对大学英语写作教学和练习有很强的针对性。验证后发现,算法整体的正确率、召回率和F1测度都优于目前常用的相似度检测算法。最后相似度检测系统的设计采取了异步调用的方式,可满足计算机辅助批阅系统的大规模运用需求。