论文部分内容阅读
在信息探索的时代,现实生活中的数据往往具有成千上万的维度,所以处理和分析这些高维数据是迫切需要的。如果高维数据可以在二维或者三维的图上得以展开,那么我们就可以直观地了解数据的主要结构,这将极大地有利于数据探索和模式发现。数据可视化算法正是基于上述的目的被提了出来,它旨在揭示嵌入在高维数据中的低维流形,是处理高维数据问题的有效手段和重要工具。同时数据可视化在诸如机器学习和数据挖掘等许多领域中是一项十分重要的研究课题。本文首先系统地介绍了数据可视化的基本内容,包括数据可视化的背景,以及一些经典的数据可视化算法。在此基础上,本文提出了一种新的数据可视化算法,称为基于概率重构和图距离近邻网络的数据可视化算法(PR-GDNN)。PR-GDNN算法构建近邻网络并计算图距离,然后基于近邻关系进行概率重构,最后极小化KL散度得到低维表示。通过这些操作,PR-GDNN算法比经典的可视化算法能更好地揭示高维数据的内在结构,展现出更好的可视化性能。通过在四个标准数据集上定量和定性的对比实验,表明了文章所提出算法的优越性。同时为了拓展PR-GDNN算法的可视化性能,本文在PR-GDNN算法的框架下,给出了预聚类和特征提取两个可行的优化方向,相应地提出了基于Louvain的PR-GDNN算法和基于PCANet的PR-GDNN算法,并结合实验说明了它们作为提升PR-GDNN算法可视化性能的可行性。