数据倾斜相关论文
随着互联网行业的飞速发展,人们需要被记录的互联网行为越来越多,传统的数据存储及处理方式已经无法满足大众的需求。Hadoop、Spar......
随着移动通信技术的发展以及智能手机等移动终端的普及,通信数据呈现指数级的增长。手机用户在打电话、发短信和上网过程中会产生......
随着物联网、移动互联网和云计算等技术的发展和普及,产生的数据呈现“指数级”增长态势。对于某些小型企业或个人用户来说,为了更......
随着大数据的盛行以及分布式计算技术的逐渐成熟,运用分布式技术来进行数据的高效分析已成为了各企业的研究热点。近年来,随着内存......
MapReduce是一种适用于大数据处理的重要并行计算框架。然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会......
随着互联网、云计算以及物联网的快速发展,电子商务、电子政务、社交网络等新应用为人们的日常生活和工作带来极大方便,同时也使数......
随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技......
学位
数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,......
计算机技术的快速发展推动了地理信息空间数据的快速采集、处理与应用。海量空间数据在Web端与移动端得到了广泛应用。基于金字塔......
随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方......
硬件技术的不断发展推动了数据处理系统的更新迭代。在计算方面,现代CPU多核、众核技术的成熟让大多数据处理系统选择采用数据分区......
Spark是基于内存的分布式数据处理框架,具备海量数据处理的能力,已成为大数据领域研究的热点。在Spark中的Map和Reduce阶段存在Shu......
随着大数据时代的到来,信息数据急剧膨胀,Hadoop和Spark大数据分析平台提供了一种分而治之的解决方案来处理大量的实时数据。然而,......
大数据及其相关处理技术成为当今计算机科学领域和工业界最重要的技术之一,最为崭新的知识获取范式,商业公司和学术科研组织已经将......
在大数据时代,越来越多的实时应用需要对大规模实时数据流执行快速并且准确的连接运算,例如股票交易系统,在线广告分析系统等。由......
分布式计算平台为高效处理海量数据提供了便利,Spark凭借基于内存计算的优势被广泛应用于大数据研究领域。数据混洗(Shuffle)是Spa......
随着网络技术的不断发展,互联网己经越来越普及,各行各业都受到它的影响,网络用户数目不断攀升,这也使得互联网中所产生的数据朝着......
随着互联网技术的飞速发展与广泛应用,人们进入了大数据时代,对大数据处理分析日益增长的需求促进了相关技术的发展。Google提出的......
云计算技术是一种全新的计算模式,通过互联网实现随时随地、按需、快速获取服务(计算设施服务、存储设施服务、应用程序服务等)。......
针对传统系统在清洗数据时出现速度缓慢,数据分布不均时造成数据倾斜等问题。本文试图设计分布式数据清洗系统,首先使用Hadoop集群......
针对MapReduee计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash......
MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程......
数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapR......
数据倾斜是海量数据分析与处理中常见场景之一.在数据倾斜场景下,传统MapReduce连接查询算法并不能充分利用Hadoop平台并行计算编......
空间数据划分是空间大数据索引方法及其数据存储的重要组成部分。针对Hadoop云计算平台在空间数据划分及其存储方面的不足,提出了......

