多源异构数据源下数据清洗与数据融合关键技术的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:x_men_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网、社交网络、云计算、搜索引擎等IT与通信技术的迅速发展,数以亿级的用户每天都在产生大量的数据。大规模数据的涌现给许多行业带来了宝贵的机遇,但同时这些数据所伴随的典型特性,如大规模、多来源(多源)、类型和模式多样(异构)、高维度以及质量良莠不齐等,使得数据的表示、理解、计算和运用等多个环节都面临着极大的挑战。  数据的质量是制约数据使用的“瓶颈”,作为提高数据质量的重要解决技术,数据清洗和数据融合是多源异构数据处理中的热点研究领域,具有重要的价值与意义。但是传统数据清洗方法借助硬编码方法实现业务逻辑,导致系统的可重用性、可扩展性与灵活性较差。另外,现实中的许多应用经常需要集成来自不同途径的异构数据,如何确保这些数据的一致性正逐渐成为一个必须要解决的问题,即实体识别技术。本文研究了现有实体识别技术,例如采用“分块(Blocking)”和“窗口(Windowing)”等技术来解决多源异构环境下的实体识别的性能瓶颈。但是现有解决方案通常伴随高昂的时间开销,其运行时间会随着数据集中属性维度的增加而呈指数增长;现有的分块技术通常假设数据集中只包含字符串型数据,且采用单一的相似度计算方法,因此很难满足现实数据中多种数据类型的不同需求;传统的分块方法通常根据关键字将多个完整实体归于同一个块或多个块,该方法缺乏灵活性,尤其是很难与其它提高实体识别性能的方法相结合;经典的一些窗口方法,如SNM方法,对排序关键字过分依赖,如果排序关键字里包含脏数据则会严重影响排序效果,进而弱化整体实体识别的效果,且滑动窗口的大小难以确定。  针对以上问题,首先,本文提出了一种基于动态可配置规则的数据清洗方法(Dynamic Rule-based Data Cleaning Method,DRDCM),该方法支持多种类型的规则以及规则间的复杂逻辑运算,并支持多种脏数据修复行为。DRDCM方法是集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。其次,本文提出一种基于属性值类型进行分块的算法(Splitting BlockingAlgorithm,SBA)和属性聚类算法(Attribute Clustering Algorithm,ACA)来减少数据维度,以达到降低后续搜索或计算的复杂度。最后,本文结合DRDCM、SBA和ACA方法,提出了分块邻近排序算法(Multi-blocking Sorted Neighborhood,MBN)来解决多源异构背景下的实体识别问题。在MBN方法中,依据不同数据类型采用不同的动态可变窗口策略和多种灵活的相似性度衡量方法,并整合了合了多种有效策略来提高实体识别性能,如边权重图和边裁剪策略等。  综上所述,本文从理论、方法、技术与应用的视角研究了多源异构环境下的数据清洗与数据融合的一些关键技术,提出了相应的解决方案,设计并实现了一个集数据清洗与数据融合为一体的参考实现系统。最后通过两个真实的多源异构数据集来对每个阶段的性能进行了详细的实验评估,良好的实验结果表明本研究所提出的方法可以无缝集成于多个数据源和多种不同应用领域,具有较好的清洗与融合效果。
其他文献
针对基于静态规则集的入侵检测系统在高速网环境下高漏报误报和性能失衡问题进行研究,提出分析强度、最优规则集的概念,建立了动态规则集机制的模型,它可以根据网络流速和事
本文以汉维机器翻译过程中的语言学、数学、计算机科学和翻译学为基础,开展面向机器翻译的维吾尔文词法及语义分析研究。汉维机器翻译中取得的目标语言(维吾尔语)通过优化处理,可
Internet/Intranet上的信息量和商务量爆炸式的增长、网络环境的日益复杂以及产品供应商的不确定性都迫切需要一种主动的、智能的、动态反映各类信息变化的新技术来满足人们对
随着科学的发展和社会的进步,计算机越来越广泛地应用于各个领域,以计算机网络为基础的计算机系统集成技术得到了迅速的发展,并广泛的应用于工业制造、建筑、航空航天、国防及医
随着网络入侵事件的日益增多,人们逐渐认识到传统的单层次的安全体系架构已不能满足日益增长的安全要求.网络安全应该是一个有机的整体,需要将各种技术结合起来,考虑系统的整
电子政务经过多年的建设,积累了大量的数据库资源,但是都是分散建设,独自运行,没有有效的实现资源共享。如何对已有数据库进行整合是一个很现实的问题。通常决策层对信息的需求是
事件管理系统是智能运输系统(ITS)的一个重要组成部分,事件持续时间预测是实现先进的事件管理系统和驾驶员信息系统的一个重要基础,实时的事件持续时间预测能够帮助事件管理
该文提出了一个在三维实射影空间对任意两二次曲面非平面交线的简单的拓扑分类方法,设计实现了一个能够提供拓扑和几何信息的QSIC计算方法.除此之外,该文还给出了两二次曲面
Internet与大多数包交换网络一样都是建立在IPv4基础上的。然而,IPv4本身并不具备安全特性。很容易便可伪造出IP包的地址、修改其内容、重播以前的包以及在传输途中拦截并查看
二十世纪末Internet发展迅猛,网络技术日新月异,各行各业都从中受益匪浅.经济全球化带来的制造业全球化,在很大程度上依赖于网络化的产品设计与制造.现代企业需要更快地对技