论文部分内容阅读
传统机器学习方法从训练数据中学习得到的数据模型能够在测试数据中取得良好效果的前提是:有充足的训练数据且训练数据与测试数据同分布。然而,这种强约束性的前提往往难以得到满足。迁移学习方法有效地削弱了这种约束前提的限制,使得不同领域的知识可以被用于辅助学习目标领域模型。直推式迁移学习方法是迁移学习方法的一种,用于解决源领域与目标领域不同时的迁移问题。针对目标领域缺乏已标注语料的问题,本文探索了一种基于EM的直推式迁移学习方法。该方法旨在从已标注的源领域数据中获取到迁移知识,然后借助EM算法将迁移知识与未标注的目标领域数据结合,以协助目标领域任务的完成。本文的主要研究工作与创新如下:(1)探索了一种基于EM的直推式迁移学习模型构建方法(EMTL),该模型利用EM算法对隐含变量的极大似然估计能力,从已标注源领域数据中获取辅助知识,用于解决目标领域数据未标注情况下的学习任务。同时,给出了基于EM的直推式迁移学习方法中的迁移知识形式及其获取和应用方法。(2)针对传统文本分类所面临的问题,研究实现了基于EM的文本分类迁移学习方法(EMTC),该方法是基于EM的直推式迁移学习方法在文本层次上的应用。该方法从源领域已标注数据中学习得到朴素贝叶斯分类器,以其模型参数作为迁移知识,辅助完成目标领域文本分类任务。基于传统中文文本分类语料构建了中文文本分类迁移学习语料库,并通过相关实验验证了EMTC方法的有效性,在不同领域间文本分类任务取得了较好的分类结果。(3)探索了将迁移学习及分类的思想融入到中文术语抽取任务中的方法。基于分类的术语抽取方法主要采用分类器估计候选术语的术语度,以此为根据抽取文档中术语。同时,本文研究了基于EM的术语抽取迁移学习方法(EMTE),该方法是基于短语层次的直推式迁移学习方法的实现。实验证明EMTE方法能够解决目标领域缺乏标注语料问题,获得较理想的效果。