论文部分内容阅读
在当今以数据为中心的时代,越来越多的应用需要访问各种异构数据源,特别是对于企业应用来说,这既是企业内部发展的需要,也是企业适应外部环境的需要。XML因其具有自描述性、可扩展性以及开放性等优点已经成为了信息表示和数据交换的主要标准,利用XML文档来存储结构化数据的趋势日渐强烈。因此,如何集成基于XML表示的异构数据源,实现有效的信息查询,成了一个亟待解决的问题。 论文针对目前缺乏对独立XML文档数据集成的研究现状,提出了首先寻求XML文档标签之间的语义匹配,然后根据产生的匹配结果,构建用户自定义的中间模式,为异构数据的集成应用提供统一接口的设计思想。论文在综合分析已有模式匹配方法的基础上,首先研究了XML标签的语义匹配算法,然后在长江电气集团电子商务系统中嵌入了数据集成子系统,结合1:1匹配算法产生的标签对,与用户进行动态交互以构建中间模式,利用对中间模式的操作进行数据的可视化查询,实现了数据访问的“透明性”和数据源的“即插即用”性。 论文的主要贡献点是: 1.自主研究并实现了独立XML文档的标签1:1匹配算法,采用22维特征向量来描述每个标签,并用向量距离来量化标签之间的语义关联度,基于最小向量距离选取文档中匹配的标签对。并利用机器学习模块来提高算法的匹配精度,又以长江电气集团两个营销分公司的客户信息作为实验数据,验证了1:1匹配算法的有效性,实验证明:使用机器学习模块后的匹配精度比未使用时提高了8%。 2.基于关系模式复杂匹配方法COMAP的思想,提出了一种自底向上的XML标签的复杂匹配方法。对于叶子标签,针对其数据中所含信息类型的不同,设计不同的搜索器并行查找每个标签可能的复杂映射,并在由此产生的候选映射集上定义了最优匹配指标,以此为标准选取标签的最优复杂匹配。