基于元学习策略的关系模式分类工具的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:maomao1t
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系模式分类是通过分析关系模式的语义,按照应用需求把关系模式划分到一个或多个合适类别或主题的过程。其在数据集成中的数据映射、数据迁移、逻辑模型设计、ETL等工作中起着重要作用。例如在数据仓库建设中,需要对数据源系统模式进行合理分类,以便于数据映射工作的开展以及从数据驱动的角度开展数据仓库逻辑数据模型的设计。由于所采用的模式设计方法和工具不同,数据源系统模式通常都是异质的,且具有多种语义信息,因此采用一般的分类方法进行分类,效果不好。当前的国内外研究中对此尚无较好的解决方法。 本文针对以上需求和研究不足,基于元学习策略,开展了关系模式的分类研究,取得了良好的实验效果。论文的主要研究内容和成果包括: 1.设计并实现了一种关系模式分类算法。该算法基于元学习策略,首先,根据关系表名、属性、描述等信息构造基础学习器;然后,各基础学习器对训练样本进行学习;最后,元学习器对各基础学习器的学习结果进行再学习,产生分类模型。实验结果表明该算法的分类效果要远远好于单个分类器的分类效果。 2.设计并实现了基础学习器的构造方法,包括基于KNN方法的表名学习器、基于朴素贝叶斯方法的属性名学习器、属性描述学习器以及表描述学习器。并且在这些基础学习器的构造过程中成功运用了基于N_Gram信息的中文处理方法和基于向量空间模型计算表名相似度等技术。 3.基于上述方法,设计并实现了一个基于元学习策略的关系模式分类工具。该工具可以有效地支持规范关系模式的自动分类,论文从三种不同角度对分类工具进行了评估。
其他文献
随着国内外市场的日渐扩大,国内软件产业近年来取得了持续高速发展,占国内软件企业大多数的中小型软件企业,在良好的发展环境下,技术水平和管理水平上都有了较大的提高。但是,中小
为了应对蜂窝网络服务提供商(CSP)面临的严重的蜂窝网络流量不足的问题,将部分蜂窝网络流量通过已有的代替无线网络,例如微蜂窝和WiFi网络,是一种很有前景的方案。现有的大多
流媒体是指多媒体数据流在网络上一边传输一边播放的一种多媒体通信服务。它涉及计算技术、多媒体压缩技术、存储技术和高速网络技术等。广泛用于远程教育、远程医疗、视频点
论文首先综述了基于移动代理的入侵检测系统;然后在总结入侵检测系统的形式化开发技术相关研究工作的基础上提出了一种新的系统形式化开发技术;最后说明了在基于移动代理的IDS
随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。互联网上的信息呈爆炸性指数级增长,同时
地理信息系统充分利用人类在拓扑学方面的成就处理点线、线线、线面这些空间要素之间的逻辑关系,并且根据人们日常生活中的需要,利用这些要素及其关系构建起更加复杂的空间对象
由于传统博弈表示方法存在的效率低、结构模糊等方面的问题,新的博弈表示方法,即结构化图形博弈模型相继出现。其中,多-Agent影响图(MAIDs)及建立在其基础之上的影响图网络(NIDs
本文主要以MPEG-2视频素材为研究对象,研究将其转码成MPEG-4视频数据的转码系统。本转码系统以从MPEG-2视频码流中获取的运动向量为基准运动向量,缩小搜索窗的范围,减少MPEG-4编
机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音频检索。其中,语音信号处理与识别是一个传统的研究热点,随着音频数据的海量增长以及语音识
学位