论文部分内容阅读
关系模式分类是通过分析关系模式的语义,按照应用需求把关系模式划分到一个或多个合适类别或主题的过程。其在数据集成中的数据映射、数据迁移、逻辑模型设计、ETL等工作中起着重要作用。例如在数据仓库建设中,需要对数据源系统模式进行合理分类,以便于数据映射工作的开展以及从数据驱动的角度开展数据仓库逻辑数据模型的设计。由于所采用的模式设计方法和工具不同,数据源系统模式通常都是异质的,且具有多种语义信息,因此采用一般的分类方法进行分类,效果不好。当前的国内外研究中对此尚无较好的解决方法。
本文针对以上需求和研究不足,基于元学习策略,开展了关系模式的分类研究,取得了良好的实验效果。论文的主要研究内容和成果包括:
1.设计并实现了一种关系模式分类算法。该算法基于元学习策略,首先,根据关系表名、属性、描述等信息构造基础学习器;然后,各基础学习器对训练样本进行学习;最后,元学习器对各基础学习器的学习结果进行再学习,产生分类模型。实验结果表明该算法的分类效果要远远好于单个分类器的分类效果。
2.设计并实现了基础学习器的构造方法,包括基于KNN方法的表名学习器、基于朴素贝叶斯方法的属性名学习器、属性描述学习器以及表描述学习器。并且在这些基础学习器的构造过程中成功运用了基于N_Gram信息的中文处理方法和基于向量空间模型计算表名相似度等技术。
3.基于上述方法,设计并实现了一个基于元学习策略的关系模式分类工具。该工具可以有效地支持规范关系模式的自动分类,论文从三种不同角度对分类工具进行了评估。