一种高效的检测相似重复记录的方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:songfenhao3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何消除数据库中的重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有:(1)提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录,复杂度仅为O(N);同时提出了该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误,提高检测精度.(2)采用了一种高效的应用无关的Pair-wise比较算法,该算法以单词间的编辑距离为基础,通过计算两记录中单词间的编辑距离来判断记录的相似与否.(3)给出了一种改进的优先队列算法来准确地聚类相似重复记录,该算法使用固定大小的优先队列顺序扫描已排序的记录,通过比较当前记录和队列中记录的距离来聚类相似重复记录.此外,该文构造了合适的实验环境并作了大量的算法实验.在此基础上,文中分析了大量、翔实的实验结果从而验证了算法的科学性.
其他文献
目的调查苏州市企业员工高血压患病情况,探索其主要危险因素,为高血压的防治提供科学依据。方法采用随机整群抽样方法,抽取苏州市4类企业共5 244例符合纳入标准的体检资料,使
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
第二次世界大战结束后,援助国家将对外援助作为实现其战略目标的重要外交手段。美国作为当代对外援助的创始国,在对外援助领域一直处于领导地位,经过70多年的发展,已经形成了比较
期刊
在1999年,澳门正式回归祖国。面对这一转变,当时的澳葡政府更多关注如何为自身谋求利益,政策目标趋向短视,不但拒绝澳门社会各界关于设立财政储备的诉求,还意图在回归前将历年滚存的财政盈余使用殆尽。适逢当时经济陷入困境,新的澳门特区政府遵守“量入为出”原则,在回归的第一年仅录得约3亿元(澳门元,下同)的财政盈余。但随着澳门开放博彩专营权,配合内地实施“自由行”政策,澳门的旅游博彩业快速发展,带动政府博
货币政策传导机制是货币理论和货币政策之核心内容,货币政策的跨国传导和溢出效应这一研究课题因各国经济相互联系和依存加强而受到关注,也因涉及不同国家而显得更为复杂。本文
保险业具有稳增长、调结构、增就业、促双创等作用,特别是在以产业转移升级为主实现京津冀协同发展背景下,重视区域商业保险的发展意义非凡。本文基于京津冀协同发展视角,以区域经济理论、区域保险理论以及协同发展理论为基础,结合京津冀区域商业保险的发展现状,探讨了京津冀区域商业保险在发展过程中存在的诸如梯级差距大、发展模式化、缺乏创新等问题。继而运用线性回归模型,分别对北京、天津、河北地区经济增长与保险发展之
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥