直推式迁移学习及其应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aajilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统机器学习方法从训练数据中学习得到的数据模型能够在测试数据中取得良好效果的前提是:有充足的训练数据且训练数据与测试数据同分布。然而,这种强约束性的前提往往难以得到满足。迁移学习方法有效地削弱了这种约束前提的限制,使得不同领域的知识可以被用于辅助学习目标领域模型。直推式迁移学习方法是迁移学习方法的一种,用于解决源领域与目标领域不同时的迁移问题。针对目标领域缺乏已标注语料的问题,本文探索了一种基于EM的直推式迁移学习方法。该方法旨在从已标注的源领域数据中获取到迁移知识,然后借助EM算法将迁移知识与未标注的目标领域数据结合,以协助目标领域任务的完成。本文的主要研究工作与创新如下:(1)探索了一种基于EM的直推式迁移学习模型构建方法(EMTL),该模型利用EM算法对隐含变量的极大似然估计能力,从已标注源领域数据中获取辅助知识,用于解决目标领域数据未标注情况下的学习任务。同时,给出了基于EM的直推式迁移学习方法中的迁移知识形式及其获取和应用方法。(2)针对传统文本分类所面临的问题,研究实现了基于EM的文本分类迁移学习方法(EMTC),该方法是基于EM的直推式迁移学习方法在文本层次上的应用。该方法从源领域已标注数据中学习得到朴素贝叶斯分类器,以其模型参数作为迁移知识,辅助完成目标领域文本分类任务。基于传统中文文本分类语料构建了中文文本分类迁移学习语料库,并通过相关实验验证了EMTC方法的有效性,在不同领域间文本分类任务取得了较好的分类结果。(3)探索了将迁移学习及分类的思想融入到中文术语抽取任务中的方法。基于分类的术语抽取方法主要采用分类器估计候选术语的术语度,以此为根据抽取文档中术语。同时,本文研究了基于EM的术语抽取迁移学习方法(EMTE),该方法是基于短语层次的直推式迁移学习方法的实现。实验证明EMTE方法能够解决目标领域缺乏标注语料问题,获得较理想的效果。
其他文献
随着互联网的发展和普及,Web信息出现了爆炸式的增长,搜索引擎已成为人们从这些海量信息中获取所需信息不可或缺的工具。但在搜索结果中,排在前几位的并不是用户真正所需的网
近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切,这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析在自然语言处理研究中的关键地位及其
广域网文件传输速度慢是目前各大网络公司面临的问题,针对这些情况,探讨了采用重复数据消除技术减少数据传输量,从而提高网络传输速度。在实现重复数据消除的网络节点,探讨了
本文主要通过分析三网融合后故障管理的特点和智能故障管理现有的方法的优缺点,提出了一种改进的基于支持向量机的告警预测方法和一种增量的实时告警刷新方法,主要工作为:(1)
高效的查询执行效率是数据仓库管理系统开发时最大的关注点。最近的研究表明,底层数据以列存储的方式进行组织,能够更好地适应数据仓库管理系统面向查询的特征,能够在执行过
近年来,复杂网络得到了越来越多的关注。复杂网络研究的最终目标是为日常生活设计出鲁棒性高的系统。但是日常生活中的系统经常会遭受一些无意的破坏甚至恶意的攻击。因此,研究
目前,无线传感器网络由于其低功耗、低成本、分布式和自组织等优点在各种应用环境中都得到了使用,但是由于需要大范围的布置在露天或者野外环境中,传感器节点很容易受到攻击者挟
随着计算机和网络技术的发展和普及,人们对于计算和存储的需求越来越大,TB级别数据以及PB级别的数据需求已经越来越普遍。因此,基于计算机网络技术的分布式存储系统成为研究热点
全自主智能机器人要求信息处理和控制决策完全由板载芯片处理完成,所以大部分由嵌入式系统设计完成的,而全自主智能机器人采用的嵌入式系统的处理速度以及存储能力相对于普通PC
众所周知,随着互联网用户数量的急剧增加,互联网的核心技术 IPv4的缺陷已经暴露明显,如IP地址匮乏,安全性不足等,这些缺陷将严重制约未来互联网应用和规模的发展,互联网急需