开放式电子文档剽窃检测服务构建技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:huangjh9246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及和Internet的飞速发展,人们可以越来越容易的从Internet获取各种电子文档资源,但同时也可以方便地采用“复制粘贴”操作来剽窃电子文档的内容。可以说Internet这一开放性平台在使人们能够方便、快速、高效地获取各种电子文档资源的同时,也成为了剽窃者窃取信息的温床。在这种背景下,构建开放式电子文档剽窃检测服务系统的需求呼之欲出。本文通过分析比较,对开放式电子文档剽窃检测服务系统的现状、结构、特点等给出了详细的总结和描述,对构建开放式电子文档剽窃检测服务系统所涉及到的主要技术,包括候选文档获取技术和电子文档剽窃检测技术进行了详细研究。对于候选文档的获取技术,本文对常用的开放式环境信息获取技术,即网络蜘蛛技术和元搜索技术,进行了比较和分析,并给出了基于元搜索的候选文档获取技术实现方案。本文还通过大量比较,分析了现有的电子文档剽窃检测技术,提出了适用于大规模电子文档检测的SCAD剽窃检测算法,该算法采用权重较高的关键词来作为Anchor,以此来选择经预处理过滤后的句子生成指纹,并最终通过比较指纹来计算文档间的相似度。实验表明,SCAD算法,在生成的指纹数量上,比对效率上以及准确度上均优于传统算法,适合大规模电子文档的剽窃检测应用。同时,为了更好地满足剽窃检测服务需求,本文还提出了基于后缀树的一对一比对检测算法,算法对两篇文档进行比较,找出两篇文档的公共子串,并用高亮的方式显示出来,为判断是否剽窃提供更直接的依据。最后,本文还描述了针对教育类论文进行检测的开放式剽窃检测服务原型系统,给出了系统的设计方案,并展望了下一步工作。
其他文献
随着信息科技、网络技术的不断发展,网络教学将传统的教学模式引领至全新的层面,营造出自主、个人的学习空间。SCORM标准的出现为网络课程资源在更大程度上的共享和重用提供了
随着社会的发展,经济和文化生活水平的提高,人们的生活方式正在发生着巨大的变化,人们的生存观、价值观,健康观、休闲观、体育观都在变化。但同时,人们的生活方式也存在着许
本研究采用文献资料法、访谈法、问卷调查法、数理统计法对黑龙江省高校高水平田径运动发展的现状进行了调查研究,分析了存在的不足,提出了制约黑龙江省高校高水平田径运动可
随着我国西北农村地区布局调整不断推进,农村寄宿制学校已经成为统筹城乡教育发展中重要的组成部分。然而,目前有关寄宿制学校的既有政策与农村教育现实不相适应,西北农村地区寄