“自我学习”的研究与应用

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:peterqiu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文运用了一种新的机器学习框架来使用未标记的数据集进行监督学习下的分类操作。这种机器学习方法叫做“自我学习”方法。这种方法并不假设未标记的数据集和标记数据集有着同样的数据分布。因此,在分类的操作中,使用大量从网上下载的未标记图片示例(或文本示例)来对已有的图片进行高效的分类。这些未标记数据显然很容易得到,在半监督学习和迁移学习中,使用未标记的数据集可以使很多应用得以实现。这种方法使用未标记数据集是为了运用稀疏编码方法来对未标记数据集得到一个更高层次的表示。然后,可以再使用经典的监督学习方法如SVM方法来对得到的新的数据集进行机器学习。  “自我学习”迁移学习方法是一种新的机器学习框架,它最早是由斯坦福大学的几位研究人员在2007年的国际机器学习会议上提出的。它不同于传统的机器学习方法,该方法通过从未标记数据样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到监督学习任务中。“自我学习”学习方法不仅利用到了标记数据,也用到了未标记数据,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习。  “自我学习”方法为机器学习提供了更多的选择性,他对于标记样本以及源领域与目标领域的限制较小,具有很强的可迁移性。可以运用“自我学习”,从事信息处理中的分类任务。“自我学习”方法,不仅适用于文本信息的分类,也适用于对电影,录音,图像等其他非文本数据的分类。  稀疏编码算法是“自我学习”的核心算法,它被用来获取一副自然图像或其他对象的高层次的相关结构,它被广泛使用在机器学习的分类操作中。稀疏编码来源于神经网络的研究,它是对只有一小部分神经元同时处于活跃状态的多维数据的神经网络的表示方法。生物学实验表明,视皮层对外界刺激的处理采用神经稀疏表示原则。  稀疏编码提供了算法来寻找对象的更紧凑的表示。当只提供未标记数据集时,它能够学习并获取该数据集的更高层次的特征(即基元)。当把稀疏编码应用于自然图像处理时,学习出的基元类似于人的视皮层的神经元的接收区域。与其他的非监督机器学习方法(如主成份分析)不同,稀疏编码可以被用来学习超完备的基元。  稀疏编码被广泛应用在数字图像处理和信息处理等方面,它的运行性能好于主成份分析,因为它对于主成份之间的不相关性有更强的要求,且要求各主成份更加归0化。使用稀疏编码可以更好地从未标记数据中提取出基元。  在“自我学习”方法中,有一个重要的理论问题就是未标记数据集和标记数据集之间的“相似度”是如何去影响自我学习的性能的。这个理论问题在斯坦福大学提出“自我学习”方法的论文中列出,并提及该问题有较强的研究价值,是未来重要的研究方向之一。在已经查询的期刊和文献中,很少涉及这个问题。本文就此问题进行了深入的探讨,并给出了实验过程和结论。  本文的第一章,是绪论。列举了近期与“自我学习”相关的一些研究进展和一些文献综述,比如:语义搜索,图像分类,自动化标注和文本过滤。简要说明了本文的主要研究思路。  本文的第二章,介绍了“自我学习”的基本概念,理论和方法,及其与现有的机器学习方法的关系,详细介绍了他的核心算法-稀疏编码算法。提出了“自我学习”的方案流程。  本文的第三章,提出了在本文中计算未标记数据集和标记数据集的相似度的方法。相似度是指按照某一个统一的尺度,对两个不同的对象,通过计算,得出的两者的相似程序的数值。本文中,在比较图像相似度的问题上,使用统计直方图的方法。  本文的第四章,是对“自我学习”的实现和对相似度问题的假设和验证。首先对六种常见的未标记数据集和一个特定的标记数据集,分别计算六个相似度。并分别用六种未标记数据集进行“自我学习”,得出性能参数。再通过验证性实验和拓展性实验,选取更多的未标记数据进行学习,通过性能参数的比较,得出未标记数据集和标记数据集的相似度对于机器学习的性能影响的结论。  本文的第五章,是本文的结论及展望。文中提出了运用“自我学习”进行学习时,在选取未标记数据时应注意的几条规则,并结合“自我学习”对机器学习的发展进行了展望。
其他文献
期刊
期刊
随着经济全球化和贸易自由化趋势的不断深入,国际贸易中关税不断下降的同时,非关税贸易壁垒,尤其是技术贸易壁垒的影响越来越显著。技术性贸易壁垒是指一国以维护国家安全、保障
期刊
期刊
自2009年10月我国创业板市场成功开启以来,一方面开辟了中小企业直接融资的新渠道,另一方面带来了新的问题,高股价、高市盈率和高超募的“三高现象”不断在创业板上演,引起市场广
信息技术和互联网技术的迅猛发展和广泛应用,推动了政府信息化的发展。作为政府信息化主要标志的电子政务越来越受到人们的关注。随着电子政务的发展,人们逐渐认识到现有的政务
期刊