基于代码风格分类的抄袭检测技术研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zyx271724361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的发展,资源获取的便捷,人们的信息获取习惯早已随之改变。人们更习惯通过网络搜索获取电子资源,同时,电子资源的修改也更为方便,针对大多数不具备任何保护措施或是作者信息(如电子签名、密码)的电子资源,随之而来的是电子资源归属问题或是抄袭情况判别问题。在计算机编程教育方面,源码抄袭的情况时有发生,同时在线编程平台以及编程竞赛平台亦有不少这种现象。学生借鉴甚至抄袭他人代码的行为,不仅影响对学生能力的培养,同时也有违学术诚信。编程竞赛平台中的代码抄袭情况严重影响竞赛的公平性及平台的公信力。目前虽然已有一些代码抄袭检测系统,但是对Type-3、type-4类型克隆的识别不够准确,并且在大数据量的检测情况下,系统效率有待提升。因此研究并开发出一种可有效识别Type-3和Type-4类型的高效率代码抄袭检测系统是十分有必要的。本文在深入研究代码相似性检测的相关工作基础上,针对Type-3和Type-4类型代码克隆的识别,提出了一种多特征联合的代码相似性检测模型JAT-BiLSTM。针对系统效率问题,本文提出了联合用户编程风格分类和JAT-BiLSTM算法的代码抄袭检测方案,通过代码风格匹配进行代码的匿名作者识别,以此减小代码比较集,提升检测效率。基于上述研究成果,设计并实现了基于代码风格分类的代码抄袭检测系统,应用于OJ平台。实验结果表明,本文设计的JAT-BiLSTM相似性检测模型,在CodeOJPy数据集的实验中准确度和F1-score均优于对照试验,综合表现最优;在CodeOJ数据集中,准确度、Recall和F1-score均优于对照试验,其中对Type-3、Type-4类型的识别准确率均优于对照算法。提出的基于代码风格匹配的代码抄袭检测系统可以在准确识别相似代码对的同时,有效提升系统效率。
其他文献
近年来,在人口老龄化趋势逐渐显现的同时,年轻人猝死和患癌的新闻也层出不穷。随着亚健康人群比例的逐年增高,我们的医疗资源却远远不能满足人们现有的需求,让每个人都经常去正规医疗机构检测是不现实的,与此同时,我国2019年在国家规划层面也将医疗物联网的发展政策纳入了基于健康中国总体规划的智慧医疗互联网医疗政策体系。故而结合物联网技术的智慧医疗平台的设计不管是对个人还是对国家都是具有重大意义的。论文针对以
近年来,随着信息技术的快速发展和国际化交流的不断深入,多语言交流需求在不断增大,语种识别技术在智能语音领域中的重要性也在不断提高。然而,当前的语种识别技术主要停留在算法研究阶段,已有的语种识别系统也主要依赖用户上传的语音文件进行识别,交互方式单一且繁琐。若能实现一个方便高效的语种识别系统,能使语种识别技术向应用化更近一步。本文针对目前语种识别系统级实现较少且已有系统交互方式单一且繁琐的问题,设计并
随着智能家居在实际生活中的应用普及,使用智能浇灌系统养殖花草成为众多居家养花养草人群的新需求。本文通过系统调研,分析总结了现有自动浇灌系统的不足,设计实现了个性化家居植物浇灌系统。本文的主要内容包括:一、研究了机器学习回归算法的原理,在Linux操作系统环境训练得到预测植物土壤湿度模型,并应用在ESP8266单片机,支撑边缘侧浇灌电子设备的离线自治。二、提出在家居植物自动浇灌系统运用边缘计算与云计
近年来,随着生活水平的提高以及饮食结构的改变,心脑血管疾病在人群中的发病率不断提高。同时我国医疗资源分布不均,许多人不能享受到良好的医疗资源,无法很好地了解自身的健康状况。随着我国移动互联网的发展,智能手机进入我们的生活,手机的功能日益丰富,与医疗相关的APP、小程序层出不穷,如何在有限的医疗资源下,利用移动互联网为广大民众提供心脑血管健康管理服务成为当前研究的热点。因此,本文根据软件项目开发的相
在学生学习过程中,学生的注意力是否集中在教学活动上是研究学生学习效率和教学质量的一个重要指标。传统意义上的教师观察学生们状态的方式因为学生数量众多而不能对每个学生面面俱到,而且教师的个人主观因素和学生的故意的行为可能会导致一些错误评判的现象发生。随着人工智能、机器学习等相关互联网技术的飞速发展,利用互联网实现自动检测分析学生学习中的专注度情况成为了可能。因此,本文基于深度学习相关的检测算法,设计并
近年来国内地铁行业发展迅速,大量地铁线路不断的开始投入运营使用。一些开通较早的地铁线路中部分设备即将到达使用寿命,再加上为提高运营维护效率而在信号系统中不断引入新设备和新技术,导致地铁运营线路信号设备面临着大量的局部更新改造工程。而信号系统作为控制列车运行的安全关键系统,对于地铁运营有着不可替代的作用。因此,针对地铁信号设备的更新改造项目,需要加强风险管理,保证项目可以安全顺利的实施。本文将项目风
农业是我国传统的基础行业,在传统农业中试验田规划是农业育种环节中的重要一环,科学合理的试验田规划有利于减少农业耕地的浪费、提高农作物生产量、促进经济的可持续发展,如何将传统农业规划与计算机信息技术相结合,以此推动传统行业的发展是当前我国建设社会主义的重要问题。传统的农田规划大多采用人工现场操作,在纸上进行作业,工作人员需要亲自到农田中,根据试验田实际情况,在纸上完成本年度的种植规划工作。此外,对于
随着互联网与通信技术的不断发展,人们已经从PC互联网时代进入了移动互联网时代,智能手机已经在人们的日常生活中占据了重要地位。手机应用商店是一个应用分发平台,用以展示、下载应用软件,方便人们根据需求选择合适的应用,而应用商店的软件评论是人们在选择软件时较为看中的参照标准,给用户提供了许多参考价值。但由于互联网的开放性,有些用户会发表一些垃圾评论,这些评论不仅仅影响用户体验,还不利于信息资源的整合,因
随着私家车的不断增加,城市交通面临压力越来越大。作为城市基础建设中的公交系统具有运载量大、效率高、对道路资源的占有量少等优点,经验证明,公交系统对减少城市的拥堵、提供多种出行方式、优化城市客运结构以及提高城市生活质量等具有重要的作用。实施公交优先战略,大力发展公共交通已经成为城市交通发展的必然要求。平面交叉口是交通流的交汇部位,交通量较大的交叉口需要设置信号灯来实现不同方向交通流的时空分隔,信号交
近些年来,互联网与大数据技术的快速发展,已经渗透到了社会生活的方方面面,并对社会生活产生重要影响。在教育领域,发展教育大数据已经成为推进我国数字校园建设与教育改革的重要战略选择,教育大数据成为了教育领域不可忽视的新型驱动力。互联网+社会的快速发展,使得互联网+产品不断涌现,人们不仅仅局限于从互联网上获取信息,同时也通过互联网向外界分享信息。在此基础上,网络用户不仅对信息资源的实时性提出了更高的要求