论文部分内容阅读
数据集成是指集成自治、异质的数据源中的数据,为用户提供一个统一全局模式,实现数据共享的问题。数据集成通常有两种实现技术:虚拟(virtual)技术和仓库(warehousing)技术。两种技术都涉及一个关键问题——如何发现数据源系统模式与目标全局模式之间的语义对应关系,来满足查询和分析需要,即模式匹配问题。由于系统开发时间、方法、工具以及标准等的不同,模式之间存在着很多语义冲突,因此实际应用中,模式匹配工作一般通过手工完成。但手工匹配是一个枯燥、费时、容易出错且成本较高的过程。例如,在国内某银行数据仓库建设中,完成17个数据源系统与数据仓库系统的模式匹配工作花费了360多个人日。因此,设计自动、通用、高效的匹配方法是十分必要的。近些年,国内外已开展了不少此方面的研究,但存在通用性不强、仅关注名称、实例相似性以及简单模式等不足。
本论文针对以上需求和问题,对数据集成中自动模式匹配问题进行了比较全面和深入的研究,提出了若干理论和方法,主要工作和创新成果概括为以下四方面:
1.提出了通用模式匹配策略中的模式内部表示模型——公共模式模型实际应用中的模式通常是异质的,表示方式存在较大差异,如果直接匹配,不但效率低、成本高、效果差,而且也不具有通用性。本论文提出了一种通用模式匹配策略中的模式内部表示模型——公共模式模型,及其表示方式——约束模式树。通过对关系模式、XML模式和对象模式等常见模式的共同特征进行抽象和统一表示,该模型较好地表示了模式的结构和约束语义,便于异质模式之间的结构匹配和通用匹配策略的实现。
2.提出了基于约束模式树的1:1模式匹配方法以及复杂环境下的模式分类方法基于约束模式树进行1:1模式匹配,需要对名称、描述等语言相似性,数据类型、结构等约束相似性进行准确定义和综合运用,并提出高效、准确的匹配算法。本论文定义了一种符合实际应用的描述相似度和结构相似度计算公式,并提出了一种基于前序遍历模式树思想的结构匹配方法。该方法通用性和实用性较强,能够同时生成成员级和结构级匹配候选,并有效地提高了匹配性能和效果。作为对1:1匹配方法的补充,本论文还提出了一种实用性更强的基于匹配模板的复杂匹配方法。由于实际应用中模式比较复杂,为了提高匹配效率和准确性,需要对模式进行分类,本论文通过综合利用模式名称、描述、属性等信息,提出了一种基于多策略学习的数据库模式分类方法,该方法有效地缩小了匹配比较空间,提高了匹配效率,改善了匹配效果,同时也适用于资源检索定位等场合。
3.提出了基于叶结点路径相似性的模式树相似性算法以及基于模式树相似性的结构级匹配结果重用方法在数据集成中,同一领域的模式具有高度的相似性,这种相似性为我们从结果重用的角度来进行模式匹配,简化匹配操作,提高匹配效率提供了可能。本论文对模式匹配结果的重用问题进行了专门研究,定义了模式匹配中的术语语义关系,提出了语义关系相似性传递规则和匹配组合操作,有效地解决了相似性传递中的语义失真问题,改善了成员级匹配结果重用效果;提出了一种基于叶结点路径相似性的模式树相似性算法,能够快速有效地发现可重用相似模式,并提出了一种基于模式树相似性的结构级匹配结果重用方法,简化了匹配操作,有效地提高了匹配效率,达到了很高的准确率。
4.提出了一组数据映射代数与表示方法模式匹配的最终目的是为了辅助生成映射关系,以便于查询或数据转换,因此在生成匹配结果后,还需要根据具体的语义冲突,给出相应的数据转换机制。本论文对此进行了研究,提出了一组数据映射操作,对数据映射问题进行了分类,并研究了用这些操作代数表示各类数据映射问题的方法,从而为数据映射和转换、数据交换等工具的开发奠定了基础。
这些研究成果,已在国家重点基础研究发展规划(973)课题和国家“十五”科技攻关课题的原型工具系统CyberETL中部分实现,并在金融领域和电子政务领域的某些实际项目中得到应用,取得了良好效果。