数据集成中的自动模式匹配方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:hahanikan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集成是指集成自治、异质的数据源中的数据,为用户提供一个统一全局模式,实现数据共享的问题。数据集成通常有两种实现技术:虚拟(virtual)技术和仓库(warehousing)技术。两种技术都涉及一个关键问题——如何发现数据源系统模式与目标全局模式之间的语义对应关系,来满足查询和分析需要,即模式匹配问题。由于系统开发时间、方法、工具以及标准等的不同,模式之间存在着很多语义冲突,因此实际应用中,模式匹配工作一般通过手工完成。但手工匹配是一个枯燥、费时、容易出错且成本较高的过程。例如,在国内某银行数据仓库建设中,完成17个数据源系统与数据仓库系统的模式匹配工作花费了360多个人日。因此,设计自动、通用、高效的匹配方法是十分必要的。近些年,国内外已开展了不少此方面的研究,但存在通用性不强、仅关注名称、实例相似性以及简单模式等不足。 本论文针对以上需求和问题,对数据集成中自动模式匹配问题进行了比较全面和深入的研究,提出了若干理论和方法,主要工作和创新成果概括为以下四方面: 1.提出了通用模式匹配策略中的模式内部表示模型——公共模式模型实际应用中的模式通常是异质的,表示方式存在较大差异,如果直接匹配,不但效率低、成本高、效果差,而且也不具有通用性。本论文提出了一种通用模式匹配策略中的模式内部表示模型——公共模式模型,及其表示方式——约束模式树。通过对关系模式、XML模式和对象模式等常见模式的共同特征进行抽象和统一表示,该模型较好地表示了模式的结构和约束语义,便于异质模式之间的结构匹配和通用匹配策略的实现。 2.提出了基于约束模式树的1:1模式匹配方法以及复杂环境下的模式分类方法基于约束模式树进行1:1模式匹配,需要对名称、描述等语言相似性,数据类型、结构等约束相似性进行准确定义和综合运用,并提出高效、准确的匹配算法。本论文定义了一种符合实际应用的描述相似度和结构相似度计算公式,并提出了一种基于前序遍历模式树思想的结构匹配方法。该方法通用性和实用性较强,能够同时生成成员级和结构级匹配候选,并有效地提高了匹配性能和效果。作为对1:1匹配方法的补充,本论文还提出了一种实用性更强的基于匹配模板的复杂匹配方法。由于实际应用中模式比较复杂,为了提高匹配效率和准确性,需要对模式进行分类,本论文通过综合利用模式名称、描述、属性等信息,提出了一种基于多策略学习的数据库模式分类方法,该方法有效地缩小了匹配比较空间,提高了匹配效率,改善了匹配效果,同时也适用于资源检索定位等场合。 3.提出了基于叶结点路径相似性的模式树相似性算法以及基于模式树相似性的结构级匹配结果重用方法在数据集成中,同一领域的模式具有高度的相似性,这种相似性为我们从结果重用的角度来进行模式匹配,简化匹配操作,提高匹配效率提供了可能。本论文对模式匹配结果的重用问题进行了专门研究,定义了模式匹配中的术语语义关系,提出了语义关系相似性传递规则和匹配组合操作,有效地解决了相似性传递中的语义失真问题,改善了成员级匹配结果重用效果;提出了一种基于叶结点路径相似性的模式树相似性算法,能够快速有效地发现可重用相似模式,并提出了一种基于模式树相似性的结构级匹配结果重用方法,简化了匹配操作,有效地提高了匹配效率,达到了很高的准确率。 4.提出了一组数据映射代数与表示方法模式匹配的最终目的是为了辅助生成映射关系,以便于查询或数据转换,因此在生成匹配结果后,还需要根据具体的语义冲突,给出相应的数据转换机制。本论文对此进行了研究,提出了一组数据映射操作,对数据映射问题进行了分类,并研究了用这些操作代数表示各类数据映射问题的方法,从而为数据映射和转换、数据交换等工具的开发奠定了基础。 这些研究成果,已在国家重点基础研究发展规划(973)课题和国家“十五”科技攻关课题的原型工具系统CyberETL中部分实现,并在金融领域和电子政务领域的某些实际项目中得到应用,取得了良好效果。
其他文献
互联网与农业,一个现代一个传统,这两年随着互联网技术的发展,两者逐渐紧密结合起来,从对农业的深度改造开始,到颠覆农业的传统营销模式,“互联网+农业”正在田野精彩演绎。
我国是农业生产大国,随着科学技术的发展,我国农业进入了飞速发展时期。目前,各类温室设施广泛普及,但是其信息化和规模化水平普遍较低。因此,设计并开发一套农业温室智能监控系统
论文对捷联相位干涉仪测角体制宽频带反辐射导引头的关键技术之一——噪声调频干扰源的分选问题进行了研究。第二章在给定噪声调频干扰源信号模型的基础上,分析了噪声调频干扰
随着计算机网络系统的迅速发展和普及,多媒体通信技术在视频会议、远程教学、管理监控等方面显示出越来越广的应用前景。同样在军事领域多媒体通信技术也起着重要作用,它将有
本文通过对荣华二采区10
期刊
学位
摘要:生物是高中课程中重要的理科科目之一,在课程的内容上有一定的难度。而我们同学的学习方法多是以听讲和课后练习为主,在知识掌握和成绩提高上取得的效果并不明显,而探究式学习能够激发我们的学习兴趣,有利于生物成绩的提高。笔者通过对探究性学习效果的分析,提出运用措施。  关键词:高中生物;探究性;运用;效果  前言:探究性学习在高中生物学科中的应用更强调发挥学者的主观能动性,让其自行地对教材中的问题进行
颅内压在临床治疗及监护危重病人时,是十分重要的一个监护指标,脑颅压力监测仪——既第一次穿刺时置导管于蛛网膜下腔,皮肤固定,然后连接该仪,其功能有有持续压力监测,定时、定量、
学位
甲基溴作为一种熏蒸剂,在农业上有着广泛的应用。但作为一种受控制的ODS物质,己被列入淘汰时间表。我国是《蒙特利尔议定书》的缔约国,对甲基溴的淘汰承担着重要的责任和义务。