【摘 要】
:
网络社区中数据规模大、数据种类繁多、数据结构复杂。通过分析网络社区中广大网民交互的帖子内容可以及时、精确的掌握到基层群众关心的热点话题,而如何高效地组织、存储及
论文部分内容阅读
网络社区中数据规模大、数据种类繁多、数据结构复杂。通过分析网络社区中广大网民交互的帖子内容可以及时、精确的掌握到基层群众关心的热点话题,而如何高效地组织、存储及检索网络社区中具有实时性的大规模数据是分析热点话题的重点和难点。其中网络社区中大文件存储效率低的问题,存储网络社区中大规模高时效性帖子数据的过程中遇到的“热点”问题,以及网络社区中大规模数据的检索效率低的问题是本文重点解决的问题。针对网络社区中大文件存储效率低的问题,本文通过设定两个容量阈值,将文件根据数据容量大小进行分类存储,提出了改进的基于HDFS的HBase混合存储设计方案。针对网络社区数据存储的“热点”问题,本文基于网络社区中大规模数据的特点,通过在建表初期进行预分区,并对表记录主键Rowkey进行优化设计,提出了预分区和散列的设计方案。针对网络社区数据检索效率低问题,本文通过将Solr集成到HBase中,对网络社区中大规模数据构建全文索引,提出了基于Solr的HBase检索设计方案。实验结果表明,改进的基于HDFS的HBase混合存储设计方案有效的优化了网络社区中大文件存储的效率。预分区和散列的优化设计方案有效的将网络社区中时效性较高的大规模数据均匀的存储在HBase表的每个Region中,解决了存储网络社区数据的过程中遇到的“热点”问题,最终使得数据负载均衡。基于Solr的HBase检索优化方案显著的缩短了根据非主键字段检索网络社区数据的时间,从而有效的优化了网络社区大规模数据的检索性能。最终,网络社区数据存储及检索技术得到了有效的优化。
其他文献
在最近几年里云计算技术作为一种新型的互联网技术,其发展迅速,技术手段日益成熟,而高可用的云计算网络离不开其资源的合理管理。云计算环境下资源管理是根据用户需要将资源
微波光子学将强大的光子技术融入微波系统中,利用光纤传输低损耗、重量轻、高带宽、抗电磁干扰等诸多优点,能够实现电域内难以甚至是无法完成的任务。微波光子链路在信号处理
噪声在日常生产生活中作为一个负面因素无时无刻不在困扰着人们。世界卫生组织的一份调查报告表明噪声污染危害程度仅次于空气污染。目前,在传统自适应滤波算法的研究工作中,
随着Internet业务的爆炸式发展,IP数据流量迅速增长,人们对信息业务的需求不断提高,“最后一公里”解决方案成为大家日益关心的焦点,以无源光网络为主的光接入网成为网络应用
随着信息技术的发展,互联网上的图像数据迅速增长。如何从海量的图像数据中快速准确地检索出人们感兴趣的图像已成为一个亟待解决的问题。图像检索技术应运而生,并成为了计算
社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展,问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本
随着Android系统在移动智能平台上的广泛应用,其安全问题也不断增加,其中应用程序造成的隐私泄露、内核攻击等问题较为突出,Android系统的安全成为目前重要的研究课题。Andro
流式数据聚类分析可以在海量数据中实时地挖掘出有效信息,在商业决策、物联网、金融证券数据分析等领域得到了广泛应用。与静态数据不同,流式数据具有实时性、突发性、易失性
如今人们对于蜂窝网络中的数据流量的需求正在以指数速率增加,而异构网络的出现则可以更廉价和方便部署地为热点地区提供更好的网络服务。但是在传统蜂窝网络中引入更多的低
爱国主义与爱社会主义相统一,是新时代爱国主义教育的基本要求和难点问题。在当前历史条件和社会关系下,爱国主义与爱社会主义相统一有其自身的历史逻辑、现实逻辑和理论逻辑