论文部分内容阅读
当今世界已经进入大数据时代,面对海量数据,如何挖掘其中的有效信息是一类亟待解决的关键性问题。数据可视化是一门跨越计算机图形学、数据科学、自然科学和人机交互等领域的交叉学科,它能够将原始抽象的数据映射成可视化结构,是数据分析中必不可少的工具。平行坐标与径向坐标可视化是对高维数据进行可视化展示的两种常用技术,它们可将高维数据映射在二维空间中,从而方便对数据进行直观地分析与研究。但现有的可视化技术仍存在一定的局限性,数据重叠现象较为普遍,这极大地影响了可视化技术的数据提取能力。因此,本文以平行坐标与径向坐标为框架,研究多维数据可视化的问题,旨在改善当前可视化技术的不足,提高现有技术对有效数据的挖掘能力。本文具体研究工作如下:1.提出一种基于PCA和X-Means的改进平行坐标可视化方法。该方法首先采用PCA降维算法对数据进行降维处理,接着用X-Means聚类算法对数据进行聚类处理,并对聚类后的结果进行了有效地评估。然后,对聚类结果的有效性进行分析,通过聚类结果的指标分数高低判断聚类结果的拟合性好坏;最终通过可视化交互技术对图形进行处理,实现用户与可视化结果之间的交互,方便用户对已有数据进行更好地理解和分析。实验结果证明该方法缩短了可视化时间,有效地改善了可视化的效果,减缓了线条密集交叠问题,使用户可以更好的理解数据并且获取数据的整体规律。2.提出一种利用聚类结果指标分数高低来判断聚类结果拟合性好坏的判决方法,此方法可对聚类后的结果进行有效评估,并对聚类结果的优良特性作出更加直接的判断。3.提出一种基于KNN和ReliefF的改进径向坐标可视化方法,解决了对随机维度锚点布局后产生的可视化聚类效果不佳的问题。该方法首先对已有数据进行归一化处理,使不同维度之间的特征在数值上具有一定的可比性,从而提高计算精度;其次,以K-最近邻分类器为框架,对不同维度顺序组合的径向坐标投影结果进行评价,证明了排列于Radviz圆环上的KNN模型分类的正确率与聚类效果的正向关系;最后,利用ReliefF启发式搜索方法,提高了对Radviz映射的搜索效率,极大地改善了投影效果。综上所述,本文基于平行坐标和径向坐标研究了多维数据的可视化问题,提出的改进策略均有效改善了数据的可视化效果,在一定程度上帮助用户加深了对数据集的理解。本文的研究成果为今后多维数据的可视化研究提供了新的理论和思路。