论文部分内容阅读
随着科学的进步和信息通信技术的快速发展,社会生产过程中信息化程度越来越高,通过智能化设备采集数据也越来也普遍,随着时间的推移将会采集和积累海量的高维时序数据,单纯通过人工的方法对海量的高维时序数据进行展示和分析已经变得不可能。因此,通过计算机程序对这些海量的高维时序数据进行可视化和可视分析已经成为近些年在计算机领域研究的一个热点和难点问题。空气监测数据作为时序数据的一种,随着我国环境问题的日益严重而逐渐受到人们的重视,本论文将对山东省空气质量监测时序数据进行可视化和可视分析研究,从而帮助人们了解山东省空气质量特性。山东省17城市中,共有144个空气监测站,每个监测站点以小时为单位对PM2.5,SO2等污染物浓度进行采集。每一种污染物将会形成144个时序数据,如何对如此大规模的时序数据集进行可视化是我们考虑的首要问题,基于传统可视化方法已经无法很好对如此规模数据进行可视化的展示,本文提出了一种结合ThemeRiver可视化方法和时序聚类算法的可视分析方法,不仅能够对山东省大规模时序数据进行很好的展示,而且能使用户对监测站点之间的时序数据相似性和山东省空气质量的特性有很好的了解。每个监测站点对污染物浓度的采集将会形成多元时序数据,如何对多元时序数据进行可视化从而使用户对污染物之间的线性相关性进行探究是我们考虑的第二个问题。本论文提出使用散点图矩阵对多元时序数据进行展示,基于传统的散点图矩阵应用往往会忽略异常值的检测,同时也不能对空气质量数据的时序特性有很好的展示,我们在散点图矩阵中加入了基于马氏距离的异常值自动检测和使用动画效果对数据的时序特性进行展示。对于空气质量时序数据的另一个重要的研究方面为如何展示随时间变化首要污染物的变化和各个站点、城市首要污染物之间的对比。这就需要我们将城市或者站点这个层次型数据和时序性数据进行结合展示,本论文提出使用Circle Packing和饼形图结合的方法对上述两种数据进行可视化。通过我们提出的三种可视化方案,能够使用户对山东省空气污染特性有更深的理解,从而为治理环境提供更好的决策支持。