基于Storm与Hadoop的日志数据实时处理研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：ssqq56

【摘要】

：

日志数据记录着系统与网络用户行为等丰富的信息,在网络管理、用户行为分析等诸多领域具有较高的实用价值。随着大数据时代的来临,单位时间内产生的日志数据规模呈几何级数不

【作者】

：

李洋

【出处】

：

西南大学

【发表日期】

：

2017年期

【关键词】

：

日志数据实时处理 Hadoop Storm Flume HBase

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

日志数据记录着系统与网络用户行为等丰富的信息,在网络管理、用户行为分析等诸多领域具有较高的实用价值。随着大数据时代的来临,单位时间内产生的日志数据规模呈几何级数不断增长,日志数据的多样性、异构性与动态变化给日志数据采集、存储和深入分析提出了挑战。传统的日志处理方式主要是基于单节点服务器,没有扩展性,单节点在CPU、I/O与存储方面的性能,都是十分有限的。当前,在实际应用中对日志数据分析的响应时间要求越来越高,实时性已和针对大数据量的高吞吐率并行计算成为了日志数据处理的基本需求。在实时处理的应用场景中,流式计算处理能完成日志流数据的实时处理,可针对一定时间段内规模不大的数据集完成知识提取,但数据量的局限性限制了可应用的算法和结果的可靠程度,因此,实时计算所提取和依赖的知识亟需与离线批处理技术针对大规模离线数据的分析结果相结合。针对信息化和大数据背景下飞速增长的日志数据的采集、存储和分析面临的主要问题与离线数据与实时流数据的知识提取及其整合问题,通过对大数据技术发展理论和实践成果的研究,在分布式系统基础架构Hadoop上通过Storm On YARN从资源调度层面集成MapReduce和Storm两种不同计算框架构建日志数据实时处理平台,采用Flume与HBase完成日志数据分布式采集与存储,利用吞吐率较高的MapReduce完成大规模离线数据的全局性知识提取,通过Storm进行Kafka缓冲区中小规模数据的突发性知识提取、结合知识进行流数据的实时持续计算,在保证实时性的同时提高准确率。本文主要研究内容与结果如下:(1)日志数据实时处理平台研究研究设计具有3层结构的日志数据实时处理平台架构,包括负责数据采集与存储的数据服务层、负责数据分析的业务逻辑层以及实现数据可视化的Web展示层,其中利用共享知识库实现离线分析与实时分析的结合,并整合Hadoop、Storm、Flume、HBase与Kafka等大数据构件实现整体架构的分布式集群环境搭建。(2)日志数据的分布式采集与存储采用Flume将从多源前端服务器中采集到的日志数据几近实时地存储到分布式数据库HBase,其中采用预分区与RowKey随机散列技术对HBase进行优化。实验结果表明,平台有效完成了前端服务器中日志数据几近实时的采集与存储,经过优化后的HBase在日志存储过程中更加充分的利用集群中的I/O和CPU资源,负载更加均衡,有效解决了HBase的“热点”问题。(3)基于MapReduce的离线日志数据深度分析结合MapReduce计算模型将传统数据挖掘算法进行并行化处理,并将算法移植到平台上执行以实现对HBase中历史日志数据的全局性知识提取并存入离线知识库。并针对实际应用将K-means与Apriori进行并行化处理在MapReduce分布式环境下完成聚类分析与关联规则分析。实验结果表明,实验结果表明平台能有效从历史日志数据中提取出高可靠度的知识,并利用MapReduce并行技术使深度分析获得更高的运行效率与扩展性,充分满足大规模日志数据知识提取的应用需求。(4)基于Storm的日志流数据实时分析整合Storm与Kafka实现实时计算的日志流数据源的稳定接入。将传统数据挖掘算法结合Storm模型完成对一定时间窗口内小规模实时数据的突发性知识提取并存入实时知识库,并以共享知识库中的信息作为决策支持对日志流数据进行Storm实时流式计算,完成离线计算与实时计算的结合。并针对实际应用混合K-means、KNN等多个算法完成网络异常识别。实验结果表明,平台能有效提取出实时数据中的突发性知识,并依赖共享知识库完成高精准度的实时持续计算,Storm技术的应用使得实时分析获得更高的实时性,在流式数据处理方面表现出了较大的优势。综上所述,本研究构建的日志数据实时处理平台有效地解决了日志数据的采集、存储与知识提取等问题,融合了Hadoop与Storm的优势,在利用MapReduce提取隐藏在历史日志数据中的全局性知识的同时,基于Storm提取小规模实时日志数据中的突发性知识、结合提取出的两种知识使用Storm传统流式处理对实时日志流数据进行实时持续计算,可为日志数据采集、存储与分析提供新的技术参考,具有一定的实用和推广价值。

其他文献

网络微时代下提升高校图书馆服务创新能力探微

随着网络技术的迅猛发展,移动互联微时代以日新月异的速度改变着人们的生活方式。网络微时代的到来对高校图书馆服务创新工作提出了新要求,高校图书馆应搞好服务创新工作,提

期刊

网络微时代高校图书馆提升服务创新能力

王书丽教授

<正>王书丽,1965年生,河北威县人。1987年毕业于河北师范学院历史系,获学士学位;1990年毕业于西北师范大学历史系,获硕士学位,同年到烟台师范学院历史系任教。2003年入南幵大

期刊

本科生新政时期美国经济史鲁东大学国家社会科学基金历史文化学院监管问题

液相色谱质谱联用技术在中药研究中的应用进展

<正>中药研究手段的现代化是中药现代化最重要的组成部分,其中包括用现代科技手段对中药有效成分确定,中药的生产和质量控制,以及中药代谢过程确定等一系列的问题。

期刊

液质联用质谱中药

我国商业银行中间业务监管法律探究

在国际金融一体化和自由化的背景下,我国金融体制改革不断推进,大力发展商业银行的中间业务是我国银行业发展的必然趋势。但我国监管部门对商业银行中间业务的监管存在诸多问

期刊

中间业务监管法律风险

基于心理成因的青少年犯罪预防分析

本文在对2014年山东省某区青少年犯罪现状调查的基础上,发现青少年犯罪的心理成因有:不成熟的思维与错误的社会认知,有偏差的价值判断与选择中的动机冲突,易冲动的情感与片面

期刊

青少年犯罪心理成因犯罪预防

唐后期五代宋初敦煌僧人与寺院常住斛斗的关系(上)

依据佛教戒律,寺院常住斛斗的重要用途之一是供应僧人的日常饭食,但大量敦煌寺院常住斛斗入破历却没有记载这方面的支出,表明敦煌寺院并不供应僧人的日常饭食。僧人只有在参

期刊

敦煌僧人常住斛斗入破历

供应链视角下国内快递企业内控机制分析及实践

结合现代企业的运营模式发现,当前已经不再是企业与企业之间单打独斗的时代,而是基于供应链而进行的价值链与价值链之间的竞争。为此,在国内快递企业的内控现状分析上,应着力

期刊

快递企业供应链视角内控机制对策分析

微波消融治疗良性甲状腺结节对甲状腺自身抗体及甲状腺功能的影响

目的:探讨超声引导下微波消融治疗良性甲状腺结节的效果,以及该技术对甲状腺自身抗体和甲状腺功能的影响。方法:回顾性分析本院在超声引导下微波消融治疗的50例良性甲状腺结

期刊

微波消融甲状腺功能良性甲状腺结节甲状腺自身抗体

经络诊断的现代研究概况

经络诊断的现代研究概况常小荣严洁（针灸系长沙４１０００７）关键词经络诊断经络辨证中国图书分类号Ｒ２２４经络是运行全身气血，联络脏腑肢节，沟通上下内外的通路。经络学说是祖国医学理论体系的重要

期刊

经络诊断经络辨证

新型联体牙垫在气管插管中的应用

目的:探讨新型联体牙垫对气管导管的固定作用及其应用效果。方法:将行经口气管插管的468例患者随机分为观察组和对照组,气管插管后对照组采用胶布固定,观察组采用新型联体牙

期刊

新型联体牙垫气管插管导管滑脱

基于Storm与Hadoop的日志数据实时处理研究

其他学术论文