论文部分内容阅读
在千亿级大数据环境下,特征挖掘、实时处理、即席分析、离线计算等场景对计算、存储的性能要求非常高.基于传统的关系型数据库、分布式Hadoop平台实现的数据挖掘平台,无法满足所有的计算场景的要求.鉴于此,本文介绍了基于内存迭代计算框架Spark,实现大数据环境下的可视化大数据挖掘平台.该平台不仅充分利用了内存计算,提高了迭代速度,而且支持各种分布式计算、存储场景,具有很强的扩展性,解决了大数据环境下各种计算场景问题.