论文部分内容阅读
随着人工智能的发展,各行各业都产生了各种各样的数据。这些数据呈现出海量、多元化、高维等特点。然而,在这些大数据中,很大一部分属性的作用是微乎其微的,它们增大了计算机的存储负担,影响了算法的运行效率。另一方面,数据中存在的噪声和离群点对数据挖掘会带来很大的影响,会影响训练出的模型的准确性。因此,属性选择和鲁棒学习就显的格外重要。属性选择可以删除那些对模型无用或起到相反效果的冗余属性,为后续的分类或聚类算法大大降低了计算量。鲁棒学习可以有效地降低数据中噪声和离群点对模型的影响,使得算法的稳定性更强。本文提出了一个新的属性选择算法和一个支持向量机(Support Vector Machines,缩写为SVM)分类算法。其中第二个算法弥补了第一个算法只能进行属性选择的局限性。本文的核心内容和原创点如下:(1)针对传统的group lasso只能两两分组的局限性,本文首先结合多视角学习和模糊C均值聚类提出了一种新的属性选择算法。具体地,本文首先通过模糊C均值聚类对所有的属性进行聚类分组。然后利用group lasso对每一组内的属性进行稀疏,组与组之间的属性进行不稀疏,从而有效地找到冗余属性。最后通过多视角学习进行多个视角下信息的整合,充分挖掘各个视角之间的相互影响关系。与此同时,对系数矩阵进行了l2,1-范数行稀疏,使得算法的计算量大大降低。(2)第一个属性选择算法旨在进行去除数据中的冗余属性,然后再对属性选择之后的数据集进行分类。这需要两步的过程。因此,本文设计了一种新的属性选择和分类同时进行的SVM算法。具体地,首先通过鲁棒统计学习对每一个样本施加一个权重,权重越大,样本的重要性越大,离群点和噪声样本的权重相对较小,这有效地降低了离群点和噪声对算法的影响。然后,提出了一个新的l12-范数稀疏正则项,来考虑属性的重要性,冗余属性的权重相对较小。最后,通过代价敏感学习来考虑类别不平衡数据的影响,同时避免了用分类准确率衡量算法性能的局限性。本文以稀疏学习、多视角学习和鲁棒统计学习作为核心技术。并针对不同的数据进行分类测试。第一个算法是属性选择之后,用现有的SVM进行分类以测试其性能。第二个算法是属性选择和SVM分类同时进行。在实验过程中,使用了医学类数据集、文本数据集和人工模拟数据集等,相对于对比算法,本文提出的算法表现出了较为优越的性能。