【摘 要】
:
集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的
【机 构】
:
Key Laboratory of Data Engineering and Knowledge Engineering(Renmin University of China), Ministry o
论文部分内容阅读
集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作。集合相似连接作为一种新的基本操作在很多领域中有重要应用。随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战。根据集合相似的必要条件,提出了相似集合之间的差异度。利用差异度和鸽巢原理,提出了一种新颖的基于数据划分的集合相似连接计算方法,该方法对集合进行自适应的均衡划分,并利用基于划分块的过滤方法来提高过滤的效率。为了进一步提高过滤的效果和相似连接的效率,利用划分块的位置信息提出了增强的过滤方法。针对提出的方法,在不同的环境下进行了实验,实验结果表明,该方法与已有的方法相比可以有效地提高相似连接的效率。
其他文献
硅芯管是一种内壁带有硅胶质固体润滑剂的新型复合管道,密封性能好,耐化学腐蚀,造价低,广泛运用于高速公路,铁路、水利等的光电缆通信网络系统工程中.本文简要介绍了硅芯管道
由于资源描述框架(resource description framework,RDF)具有表达灵活、简洁等优点,已被接受为表达元数据及万维网上数据互联的规范.近年来,其数据量在以飞快的速度增长.相应
现阶段,在室内装饰工程中涌现出越来越复杂、更迭速度也越来越快的各类施工技术与材料,这就需要加强施工中各个单位的协调跟合作.并且大量的工艺与技术都需要人工施工,但室内
焊条受潮会使焊接质量无法保证,因此在工程施工前需要对焊条进行烘干,使焊条干燥.现有的焊条盛放装置能够通过电焊机散热口排出的热风对盛放装置内的焊条进行烘干.在焊条烘干
针对索引维护时间和空间效率低的问题,提出了一种基于分配空间自学习的在线动态索引混合更新机制(on-line dynamic index hybrid update,ODIHU).ODIHU根据Zipf分布原理对
《工程质量安全手册(试行)》自印发以来,各地高度重视,大胆探索、先行先试,形成一系列好的做法和经验,对提升工程质量安全水平起到了积极推动作用.为进一步完善质量安全保障
数据库外包是将数据库管理工作外包给专业第三方,而数据库外包中需要解决的关键问题之一是查询结果的验证。提出了外包追加型数据库的问题。根据外包追加型数据库的特点,在现
房屋建筑工程的实施,是一项极为复杂的项目过程,房屋建筑工程不仅涉及到众多的参与人员,还涉及到大量的施工设备、施工材料.尤其是现代施工过程中,施工技术得到了快速发展,施
随着多媒体的教学的广泛使用,课堂教学中一些问题也逐渐显现出来,本文根据有效教学理论结合笔者自己的教学实践和观察,对多媒体教学进行反思并提出自己的看法和观点。
物化是列存储数据仓库查询中必不可少的操作,物化策略和物化技术直接影响到查询执行的性能,因此设计一种适应于列存储系统的物化策略和相关技术尤为重要.针对延迟物化可能重复