【摘 要】
:
由于现实生活中存在海量无标签的数据样本,如果单纯依靠人工对这些无标签数据样本进行标签的话,花费代价通常会很高。如何以最少的代价给这些海量无标签数据样本进行标签这一难
论文部分内容阅读
由于现实生活中存在海量无标签的数据样本,如果单纯依靠人工对这些无标签数据样本进行标签的话,花费代价通常会很高。如何以最少的代价给这些海量无标签数据样本进行标签这一难题,越来越得到人们的广泛关注和深入研究。主动学习就是为了解决标签数据样本匮乏这一瓶颈而产生的,它通过选取少量最具信息量的未标签数据样本进行标签,从而建立分类精度较高的主动学习分类器模型,再对其它海量未标签的数据样本进行分类标签,大大地提高了工作效率。
本文的研究工作主要分为两部分:间接构造数据样本主动学习方法和解释性主动学习方法。
本文的研究工作之一是提出了间接构造数据样本主动学习方法。传统主动学习方法主要存在以下两个不足:(1)过分依赖于未标签数据集;(2)不考虑现实生活中数据分布状况。基于以上的考虑,本文提出了间接构造数据样本主动学习方法,更加有效地建立主动学习分类器模型。
本文的另一个研究工作是提出了解释性主动学习方法。传统主动学习方法往往假设Oracle仅仅可以用来对不同未标签数据样本进行标签。本文基于现实生活中的观察,提出了解释性主动学习方法:假定Oracle不仅可以对未标签数据样本进行标签,而且可以给出相应的解释规则,有效地提高了主动学习分类器模型的分类性能。
本文通过大量的实验,验证了间接构造数据样本主动学习方法和解释性主动学习方法比传统主动学习方法更具优势。
其他文献
无线移动Ad Hoc网络是由一组带有无线通信收发装置的移动终端节点组成的具有任意性和临时性的无中心、网络拓扑动态、自组网络系统,每个节点既是主机又是路由器。移动Ad Hoc
随着计算机网络技术的日益发展,人们的学习生活和工作方式都发生了巨大变化,计算机在带来了极大便利的同时也存在许多问题。个别不法分子利用网络中的一些安全漏洞进行破坏活
随着Intemet和计算机技术的飞速发展,数据库的应用越来越广泛。数据库作为信息系统的核心组成部分,担负着存储和管理大量数据的任务,同时也面临着各种各样的威胁。虽然数据库系
在无线视频通信领域,随着新的调制技术和新的传输协议的不断发展,无线视频传输变为可能。视频监控融合了这些技术,得到了广泛的应用。本文结合实际应用,给出了一种海上无线视
随着软件行业的飞速发展,人们也越来越认识到传统软件集成的不足。近年来,随着敏捷开发思想的兴起,人们也逐步的认识到持续集成的价值,持续集成是一个软件开发的实践,即团队
基于被动测量的网络性能测度的研究以及服务质量评估模型的设计,对于网络管理员了解网络服务质量的具体情况具有重要的意义。近年来,SLA作为网络服务质量评估的普遍手段,被各大
目前在各类企业信息系统、特别是高校信息系统应用中,经常会遇到一类新的应用需求,用户经常会随机地突然需要查询某些特定信息,这些查询需求给当前信息系统带来了新的挑战。
本硕士论文对SUPANET流量控制技术进行了研究。SUPANET(单物理层用户数据交换平台体系结构)是由四川省网络通信重点实验室提出的下一代网络体系结构,其基本思想是将所有必须
随着数据库以及其管理系统的广泛应用,数据库中存储的海量数据急剧增大。因此,频繁模式和多关系数据挖掘已成为数据挖掘中快速发展的重要研究课题。现实数据通常存储于由多个关
肝脏的解剖分段是肝脏规则性切除术和活体肝脏移植术的理论基础,肝脏的自动化分段则可以加快分段速度以及分段的准确度。如何利用CT数据获取肝脏的相关信息,实现自动化分段,并开