论文部分内容阅读
随着互联网和物联网等科学技术的飞速发展,许多实际应用产生的数据规模越来越大,维度越来越高。由于高维数据的普遍性和重要性,研究高维数据挖掘具有非常重要的意义,因而在学术界引起了高维数据挖掘研究热潮的兴起。目前研究的热点主要集中在高维数据分类上。由于受维度效应的影响,许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果,因此,高维数据分类对传统的分类技术而言是新的挑战。高维数据分类具有重要的意义,其能帮助人们自动分类数据所属的类别。譬如,新闻文本的自动分类,基因表达的所属功能的自动判别,网络营销中不同兴趣用户的区分,舆情分析中有用信息的过滤等。然而对于高维数据的分类问题,目前的研究结果和技术还很少,高维数据分类存在许多研究问题需要解决。因此,本文针对高维数据分类展开研究,主要考虑多噪音属性的高维数据分类问题、多领域转移学习问题、多类标学习问题、多实例多类标学习问题,提出系列算法来解决这四个研究问题。本文的主要研究内容和创新包括:1.针对多噪音属性的高维数据分类问题,本文提出了基于分层抽样的随机森林子空间选择方法。针对不同高维数据类型上的分类问题。本文通过随机森林为载体提出一系列的分层抽样随机森林算法。针对高噪音属性数据分类,提出了SRF算法。该方法能够有效提高包含大量噪音属性的高维数据的分类精度。针对不平衡文本数据分类,提出了ForesTexter算法。该方法能够有效提高不平衡数据中小样本类别的分类精度。针对全基因组数据分析,提出了GWA-SRF算法。该方法能够有效避免穷举搜素最优子空间大小的计算代价,并且自动计算属性重要性,发现与研究疾病相关的重要属性。这些方法的提出为高维数据分类带来更多更好的选择。2.针对高维数据的多领域转移学习,本文提出了基于联合马尔可夫链的MT-Learn算法。该算法通过构建相同样本空间内的样本相似性关系,以及不同样本空间之间的样本相似性关系,将所有样本关联在一个联合马尔可夫链的转移概率图中进行随机游走,最后得到一个稳态概率集合,该集合代表不同样本空间中各个学习任务的分类结果。本文从理论上分析证明了MT-Learn算法解的存在性、唯一性以及求解算法收敛性。在图像和文本数据上的实验结果表明MT-Learn算法能够在多领域转移学习问题上获得较好的分类精度。3.针对多类标学习问题,本文提出了基于层次树模型的ML-Tree算法。该算法的特点包括以下三方面:1)层次树中每个节点都能进行学习和多类标预测;2)父节点学习的预测类标可以传递和继承给子节点;3)节点间的类标传递模式能够有效地对多类标数据进行分类,并且自动发现类标之间的关系。在多类标数据上的实验结果表明ML-Tree算法的分类结果明显优于传统算法。4.针对多实例多类标学习问题,本文提出了基于马尔可夫链模型的Markov-MIML算法。该算法通过实例与实例之间相似性关系,以及对象与实例之间从属关系进行学习,推衍出对象与对象之间相似性关系。算法中通过构建马尔可夫链模型将所有对象关联在一个马尔科夫链的转移概率图中进行随机游走,最后得到一个稳态概率分布。该分布代表多实例多类标对象的类标排序结果。本文从理论上分析了Markov-MIML算法解的存在性、唯一性以及求解算法收敛性。在图像和文本数据集上的实验结果表明Markov-MIML算法能够优于传统MIML算法。总体而言,本文围绕多噪音属性的高维数据分类、多领域转移学习、多类标学习、多实例多类标学习这四个研究问题,提出了SRF算法,MT-Learn算法,ML-Tree算法和Markov-MIML算法。本文的研究将推动高维数据分类研究的进一步发展,并且有望为高维数据研究带来新方向。