论文部分内容阅读
随着信息技术的普及和Internet的飞速发展,人们可以越来越容易的从Internet获取各种电子文档资源,但同时也可以方便地采用“复制粘贴”操作来剽窃电子文档的内容。可以说Internet这一开放性平台在使人们能够方便、快速、高效地获取各种电子文档资源的同时,也成为了剽窃者窃取信息的温床。在这种背景下,构建开放式电子文档剽窃检测服务系统的需求呼之欲出。本文通过分析比较,对开放式电子文档剽窃检测服务系统的现状、结构、特点等给出了详细的总结和描述,对构建开放式电子文档剽窃检测服务系统所涉及到的主要技术,包括候选文档获取技术和电子文档剽窃检测技术进行了详细研究。对于候选文档的获取技术,本文对常用的开放式环境信息获取技术,即网络蜘蛛技术和元搜索技术,进行了比较和分析,并给出了基于元搜索的候选文档获取技术实现方案。本文还通过大量比较,分析了现有的电子文档剽窃检测技术,提出了适用于大规模电子文档检测的SCAD剽窃检测算法,该算法采用权重较高的关键词来作为Anchor,以此来选择经预处理过滤后的句子生成指纹,并最终通过比较指纹来计算文档间的相似度。实验表明,SCAD算法,在生成的指纹数量上,比对效率上以及准确度上均优于传统算法,适合大规模电子文档的剽窃检测应用。同时,为了更好地满足剽窃检测服务需求,本文还提出了基于后缀树的一对一比对检测算法,算法对两篇文档进行比较,找出两篇文档的公共子串,并用高亮的方式显示出来,为判断是否剽窃提供更直接的依据。最后,本文还描述了针对教育类论文进行检测的开放式剽窃检测服务原型系统,给出了系统的设计方案,并展望了下一步工作。