论文部分内容阅读
互联网的发展让数据量呈现指数增长,当今世界,人类已经进入大数据的时代,如何从海量的数据里发掘有价值的信息变的至关重要。将抽象和结构复杂的数据变成易于人类理解的信息是数据可视化技术研究的主要内容。数据可视化技术是大数据领域的研究热点之一,有着巨大的研究价值和应用价值。本文结合实际的大数据可视化项目,探究了如何使用开源的Django Web框架构建基于Hadoop计算平台的大数据可视化分析Web系统,详细介绍了系统的设计方案,并分模块介绍了设计内容。针对系统内测阶段暴露出的问题,从多个方面进行了优化和改进,包括前端性能优化、Django应用层优化、PostgreSQL数据库优化等,总结出了大量的Web系统优化经验,具有一定的借鉴意义。项目中Web系统的数据源来自于Hadoop计算平台。Hadoop计算平台对成千上万的数据处理任务进行调度,调度算法的好坏直接影响数据处理的效率。本文研究了Hadoop平台作业调度算法。首先深入分析了Hadoop计算平台三种常用的作业调度算法先进先出调度算法、公平份额调度算法、计算能力调度算法的算法原理和各自的优缺点,随后分析了包含“移动计算”思想的延迟调度算法比三种常用调度算法的优秀之处和自身的不足,在延迟调度算法的基础上提出了一种考虑节点负载情况的改进型延迟调度算法,给出了算法分析和仿真结果,证明改进型延迟调度算法带来更高的作业调度效率,具有一定的实用价值。最后,对项目的架构相关问题进行了分析,这些问题包括前后端存在职责不清晰的现象,前后端代码之间存在干扰,随着系统功能扩展相关问题会越来越突出。分析了淘宝开发团队提出的前后端分离解决方案,并结合本项目架构特点对系统未来的架构改进进行了展望,引入NodeJS作为中间层,彻底消除前端和后端之间的代码耦合,最终提高开发效率和降低系统维护成本。