数据倾斜相关硕士博士期刊学术论文

数据倾斜相关论文

基于Spark大数据平台的商品推荐算法研究

随着互联网行业的飞速发展,人们需要被记录的互联网行为越来越多,传统的数据存储及处理方式已经无法满足大众的需求。Hadoop、Spar......

学位

Spark Shuffle 数据倾斜 Slope one 推荐算法

基于手机信令的轨迹侦查系统的应用研究

随着移动通信技术的发展以及智能手机等移动终端的普及,通信数据呈现指数级的增长。手机用户在打电话、发短信和上网过程中会产生......

学位

大数据手机信令目标轨迹数据倾斜基于成本优化

考虑数据倾斜和截止时间约束的Spark任务调度方法

随着物联网、移动互联网和云计算等技术的发展和普及,产生的数据呈现“指数级”增长态势。对于某些小型企业或个人用户来说,为了更......

学位

数据倾斜 Spark 调度优化云计算

面向Spark Shuffle算子的任务调度器优化方法研究

随着大数据的盛行以及分布式计算技术的逐渐成熟,运用分布式技术来进行数据的高效分析已成为了各企业的研究热点。近年来,随着内存......

学位

分布式集群洗牌算子数据倾斜任务调度

分布式流式处理系统中性能敏感的负载均衡技术研究

随着大数据技术的发展，高效且可扩展的数据流处理技术受到越来越多的关注。分布式流式处理系统（DSPSs，Distributed Stream Processing......

学位

分布式集群处理系统性能敏感均衡调整数据倾斜数据流处理并行节点负载均衡调整过程并行处理 key

面向MapReduce的迭代式数据均衡分区策略

MapReduce是一种适用于大数据处理的重要并行计算框架。然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会......

期刊

MapReduce 大数据数据倾斜迭代式数据分区微分区均衡分区

MapReduce模型的性能优化研究

随着互联网、云计算以及物联网的快速发展,电子商务、电子政务、社交网络等新应用为人们的日常生活和工作带来极大方便,同时也使数......

学位

MapReduce 动态调度数据倾斜抽样分区性能优化

基于Map/Reduce的分布式搜索模型研究

随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技......

学位

分布式搜索 Map/Reduce 优化

Spark数据倾斜场景解决方案的研究与应用

数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,......

学位

本地化 Spark SQL 数据倾斜 MDP 动态绑定

Spark计算环境中的中间数据均衡放置算法研究

随着网络信息技术的不断发展,全球使用互联网的人数在持续的增加,互联网已经在很多行业进行实践和应用,带来了互联网数据的批量式......

学位

Spark 数据倾斜数据抽样 MapReduce 负载均衡

基于Hadoop的矢量瓦片构建方法研究

计算机技术的快速发展推动了地理信息空间数据的快速采集、处理与应用。海量空间数据在Web端与移动端得到了广泛应用。基于金字塔......

学位

MapReduce 矢量瓦片 KD树 GeoCSV 数据倾斜

抗倾斜的Spark中间数据分片机制研究与实现

随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方......

学位

Spark 数据倾斜数据分片中间数据预测

基于高速网络的数据倾斜性能优化研究

硬件技术的不断发展推动了数据处理系统的更新迭代。在计算方面,现代CPU多核、众核技术的成熟让大多数据处理系统选择采用数据分区......

学位

数据倾斜 Spark SQL 数据偷取分布式计算 RDMA

Spark计算框架下数据倾斜优化策略研究

Spark是基于内存的分布式数据处理框架,具备海量数据处理的能力,已成为大数据领域研究的热点。在Spark中的Map和Reduce阶段存在Shu......

学位

Shuffle 数据倾斜重分区代价模型分片策略

分布式环境下可靠信任网络构建研究

电商平台中的恶意买家会通过提供虚假评价等手段实施恶意攻击,以此来影响其他买家的购物选择,传统的串行信任模型虽然能有效抵御恶......

学位

信任网络 MET TrustINF Spark 数据倾斜

基于Spark数据倾斜的分区负载均衡研究

随着大数据时代的到来,信息数据急剧膨胀,Hadoop和Spark大数据分析平台提供了一种分而治之的解决方案来处理大量的实时数据。然而,......

学位

Spark MapReduce 数据倾斜资源调度高性能计算

Spark中缓解数据倾斜的自适应任务调度技术研究与优化

大数据及其相关处理技术成为当今计算机科学领域和工业界最重要的技术之一,最为崭新的知识获取范式,商业公司和学术科研组织已经将......

学位

MapReduce RDD Spark 任务调度自适应数据倾斜

分布式流连接系统负载均衡策略研究

在大数据时代,越来越多的实时应用需要对大规模实时数据流执行快速并且准确的连接运算,例如股票交易系统,在线广告分析系统等。由......

学位

分布式流连接系统数据倾斜动态负载均衡负载迁移

面向Spark数据混洗中数据倾斜的动态均衡分区方法的研究

分布式计算平台为高效处理海量数据提供了便利,Spark凭借基于内存计算的优势被广泛应用于大数据研究领域。数据混洗(Shuffle)是Spa......

学位

分布式集群数据倾斜动态均衡分区方法

面向航天情报系统的并行索引技术的研究与实现

随着航天技术的飞速发展,航天情报信息量急速增长,传统的人工跟踪情报的模式暴露出越来越多的缺点,比如不能高效查询航天情报数据,......

学位

HT树并行索引 Hadoop 数据倾斜均衡分区

基于数据偏斜条件下Reduce任务放置机制的研究

随着网络技术的不断发展,互联网己经越来越普及,各行各业都受到它的影响,网络用户数目不断攀升,这也使得互联网中所产生的数据朝着......

学位

Hadoop 数据倾斜抽样中间数据任务放置云计算虚拟机迁移

基于改进分区算法的Spark数据倾斜优化研究

随着互联网技术的飞速发展与广泛应用,人们进入了大数据时代,对大数据处理分析日益增长的需求促进了相关技术的发展。Google提出的......

学位

大数据 Spark 数据倾斜负载均衡

数据倾斜条件下基于蚁群算法的虚拟机迁移算法研究

云计算技术是一种全新的计算模式,通过互联网实现随时随地、按需、快速获取服务(计算设施服务、存储设施服务、应用程序服务等)。......

学位

云计算 Hadoop 数据倾斜抽样蚁群算法虚拟机迁移

分布式数据清洗系统设计

针对传统系统在清洗数据时出现速度缓慢,数据分布不均时造成数据倾斜等问题。本文试图设计分布式数据清洗系统,首先使用Hadoop集群......

期刊

集群分布式数据清洗系统数据倾斜分区聚合算法

MapReduce计算模型下基于虚拟分区的数据倾斜处理方法

针对MapReduee计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题，提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH（Hash......

期刊

MapReduce 数据倾斜虚拟分区

基于Maxdiff直方图的MapReduce负载均衡研究

MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程......

期刊

MapReduce 数据倾斜直方图数据划分

MapReduce在线抽样分区负载均衡研究

数据倾斜一直是影响MapReduce性能的关键问题之一．为缓解数据倾斜问题，提出一种基于抽样分区的MapReduce在线负载均衡机制：MR-LSP（MapR......

期刊

MapReduce 数据倾斜动态调度抽样分区

CSPRJ:基于数据倾斜的MapReduce连接查询算法

数据倾斜是海量数据分析与处理中常见场景之一.在数据倾斜场景下,传统MapReduce连接查询算法并不能充分利用Hadoop平台并行计算编......

期刊

数据倾斜 MapReduce Hadoop 连接查询查询优化负载均衡

云环境下海量空间矢量数据并行划分算法

空间数据划分是空间大数据索引方法及其数据存储的重要组成部分。针对Hadoop云计算平台在空间数据划分及其存储方面的不足,提出了......

期刊

矢量数据 Hilbert编码空间数据划分 MapReduce R-tree索引数据倾斜

基于抽样的Cube占用空间预测算法

在数据仓库的设计中实物化视图的选择有赖于对cube占用存储空间大小的预测,然而传统的基于数据均匀分布的抽样预测算法不能准确地......

期刊

抽样存储预测 cube 数据倾斜数据仓库实物化视图联机分析处理

看过本文同时还关注