基于Web检索的小型学习资源语料库的建设

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:colinwangaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年的建设和发展,语料库已经成为语言学和信息技术研究的重要领域。语料库与学习资源有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,而利用教育技术学的学科优势和特点,发挥语料库在建设学习资源的方面优势作用,对资源的共享必将有很多的帮助。本文在分析了语料库的背景及发展现状,学习资源建设理论基础和主要内容后,提出了一种基于Web检索的小型学习资源语料库系统模型。开发了基于Java的专用型学习资源语料库系统,实现了数据收集、多种文档处理、最终能够实现了语料检索和语料提取。首先,介绍了计算机语料库的理论基础和发展现状,详细论述了学习资源的定义、内容等,接着分析了语料库在学习资源库建设中的可借鉴之处,简单描述了搜索引擎的发展现状和工作原理。其次,介绍了自然语言处理的理论基础以及现阶段应用比较广泛的中文分词器,分析了网页消重和网页净化的相关技术现状。最后,提出了基于Lucene/Heritrix的小型学习资源语料库的系统模型。使用Heritix实现了网页抓取、分析以及利用Lucene对学习资源语料库的检索。
其他文献
期刊
自1981年首个高等教育学硕士点建立后,经过三十多年的发展,我国已拥有众多的高等教育学博士、硕士学位点。为应对新一轮学位授权审核制度改革所带来的挑战,全面把握我国高等教育
当前中国农村教育最普遍的现象和问题莫过于2001年以来的农村中小学布局调整问题,尤其是对农村小学实行的“撤点并校”。大规模的农村小学和教学点的撤并,给农村学生和家长、