【摘 要】
:
重复数据清理是当今数据质量研究的一个重要问题,清理重复数据关系着数据库服务的质量.因此,论文查重子系统是科研服务平台中的一个部分,它提供了对整个科研服务平台中的英文
论文部分内容阅读
重复数据清理是当今数据质量研究的一个重要问题,清理重复数据关系着数据库服务的质量.因此,论文查重子系统是科研服务平台中的一个部分,它提供了对整个科研服务平台中的英文论文进行数据查重,检查新加入的论文是否为重复(原数据库中已有),在并库(加入整个数据库的内容)操作前查出并库将产生的重复论文的服务.该文围绕着论文查重子系统的分析与实现,介绍了当今用于重复数据清理的各种算法,包括用来产生潜在的重复数据对减少比较次数的算法和计算相似度的算法.在分析了以上算法的基础上,根据论文数据字符串长,需要模糊匹配等特点,论文查重子系统的实现如下:(1)Bigram聚类算法产生潜在的重复论文对,(2)比较这些论文对的标题相似度和作者相似度,(3)用通过机器训练标记好的训练集得到的标题相似度与作者相似度组成的线性不等式来判断是否重复.通过实验分析比较了以字母为粒度计算相似度的3种算法和以单词为粒度计算相似度的2种算法的性能,找出了最适合论文查重的以单词为粒度并将单词出现频率作为编辑操作的权重来计算编辑距离的算法,实现了论文查重子系统较高的查全率查准率和时间效率.
其他文献
随着网络带宽高速增长,宽带接入(通过ADSL、cable modem等设备)Internet越来越普遍.流媒体系统中的主要制约因素是由于网络拥塞带来的报文损失和延迟,而不是由于用户接入的物
近年来,电子商务随着网络技术的飞速发展迅速普及,它已经成为了计算机行业中研究的热点问题之一。传统的WEB语言HTML由于其不可扩展性,已经远远不能满足电子商务的动态发展了,而X
地理信息系统简称GIS(Geographical Information System)是一种决策支持系统,它具有信息系统的各种特点。地理信息系统与其他信息系统的主要区别在于其存储和处理的信息是经过地
随着通信业务的发展及通信网络规模的进一步扩大,新技术、新设备、新业务不断出现,运营商对电信设备制造厂商同时组网的产品均提出了统一网管的要求,即不同类型的产品能在同一个
随着互联网的发展,人们既感到信息资源十分丰富,又感觉想找到所需的信息相对较难.原因之一是现有的信息系统还没有能够对信息资源进行有效的组织管理,内容管理是解决此问题的
随着基因组计划的实施,新的分子生物信息数据大量涌现.如何从中得到有价值的知识是一项非常艰巨的任务.生物信息学就是为了满足这一要求而迅速发展起来的.在生物信息学中,对
IP电话是VoIP(Voice over IP)技术的一种应用,随着H.323、SIP等相关VoIP技术的发展,IP电话技术中的控制及信令体系日臻完善,IP电话可以实现的已不仅仅是PC到PC的简单呼叫,将
随着计算机技术及其应用的不断发展,出现了许多访问控制模型。目前,集成多种访问控制机制,提供一个整体解决方案,方便用户根据需要灵活选择和组合使用各种访问控制成为一种趋势。
本文总结了地理信息系统和WebGIS基本技术知识,并对基于WebGIS的城市消防系统的软件设计开发进行论述.本系统所选用的对象/关系型空间数据库ZEUS,是一个将关系型数据库系统和
将人工免疫系统运用到入侵检测系统中,近年来已经有了一定的发展.在这个领域中,如何利用人工免疫学的基本原理,培育山符合需求的免疫细胞,使能够较多的识别非我并较少的识别