基于流式引擎的大数据分布式架构

来源 :商业2.0-市场与监管 | 被引量 : 0次 | 上传用户:lj55769145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在人工智能流行的時代,数据量的增长速度也是无法估计的,网络上的留言也越来越多,也难免会有一些污秽的语言,所以净化网络环境是很重要的事情,我们可以利用自动化的网页抓取技术将网络上的留言保存下来,通过设计大数据架构对数据进行实时计算,然后分批装载进数据库,常见的流式处理技术像kafka[1]+spark streaming[2]+zookeeper[3]这样进行架构,然后再将处理后的数据存储进hive 或者HDFS这样的存储单元。
  关键词:大数据架构,流式处理,实时计算
  如今我们正处于人工智能的时代,大数据,人工智能,自动化等概念越来越深入人心,让我们对于这些词汇越来越有清晰的印象,而在数据挖掘,数据计算方面,整理一个思路清晰的架构思路也是非常重要的。
  我们所出的网络环境,每天都会有很多人在上面发表自己的言论,这就会让网络成为一个自由的环境,但是也有很多不法分子在网络上污秽的言论污染了我们所在的空间,这是一种不好且存在的现象,而我们可以使用人工智能大数据的手段,快速识别这些污秽的词汇,从根本上杜绝这些情况的发生,这就需要设计一个可靠合理的大数据架构了。
  1.数据集
  我们使用自动化爬虫框架源源不断的去获取到数据源,从某网站上使用代理池ip不断替换身份,然后抓取网络的言论,最后保证获取到的数据大约是百万量级的。
  最开始的时候,我们主要是从百度贴吧,新浪微博的客户端去进行获取,因为对于数据加密的算法不会很难,可以很容易的就获取到,然后将这些数据规范化,存储进我们的数据库,或者可以说是落盘与内存的一种中间状态进行存储。
  2.设计架构
  接下来,就是较为重要的架构设计了。
  本文将架构的介绍按照数据流向的顺序进行介绍。
  第一步,自动化爬虫获取到的数据我们是落盘到HDFS上的,如果想进行计算,就需要将HDFS分区上的内容读进内存,但是HDFS[6]上的数据是海量的,如果一次全部读进来,会堆栈溢出,所以此方案设计为按照block编号的顺序去进行读取,之后对接到flume[7],按照顺序去读取每个block上的评论信息。
  第二步,被flume读取进来之后,直接对接到kafka的生产者阶段,此时系统整个过程都是需要使用zookeeper进行高可用保障的,这里使用的znode主要用来存储的是flume的配置信息,因为系统可以在不同流量的时候对应到不同的采集配置。
  第三步,就是系统中的kafka了,它主要起到了解耦的效果,数据在爬取读入的过程,可以称之为生产数据,之后利用kafka内部的partition运送所产生的的数据到消费者端。由于此系统不需要过高的效率,所以这里将kafka的ack.require设置为exactly once,保证每一条信息的可靠传达。这里的消费者端也就是下面会提到的Sparkstreaming,在上层应用中,系统会通过测试判断当前系统可支持的运算能力,当超过可容纳的阈值的时候,会在消费者端使用阻塞队列保证系统的安全。
  第四步,自然是最重要的SparkStreaming,此系统采用这项技术主要也是为了模拟batch运算,将生产者端运输进来的数据进行微批次的计算,预处理等操作,筛选掉有些可能没有价值的数据,将这些数据一并进行回收,最后将格式化的数据进行整理,放入到hive中,分库分表,以便于进行后续进行数据挖掘的同学进行相关的操作和使用数据。
  3.测试调优
  此项流程,主要是为了测试系统的各项阈值,例如kafka承受数据的阈值,消费者端与kafka进行TCP连接的句柄数阈值,spark层阻塞队列长度的阈值,内存,cpu,堆等等的阈值,分别进行测量与预估,制定优化方案,接着将平台的一些设计进行调整,令体验上升,性能更优。
  而测试的过程,可以采用多种方案,比如说Apache Jmeter,Apache Bench等等,都可以满足我们的需求,实时监控当前状态各性能指标以及参数,是否满足我们预期的标准。
  测试之后,发现当前系统存在一个问题,就是我们无法完成持久化,也就是说,如果在当前内存中出现宕机,那么正在运算的block的数据,会丢失,于是便根据这个问题设计了一个方案,参考Redis的RDB和AOF的混合持久化方式,每100条评论数据进行一次落盘,并且在加载当前数据的时候,启用AOF的手段保证数据的稳定性。
  4.总结
  此系统主要会考察一些团队针对于分布式架构体系的应用,将一些生活中常见的场景使用一些相关技术得到数据整理,以便人工智能算法可以得以落地,团队通过查阅资料,单元测试等方法将一些书上的案例得以应用,并且在此项目中,也确实拥有一定的商业价值,例如可以将此方案应用在社交平台上,净化社交媒体的网络环境,也可以应用在游戏中,以防双方因为情绪出现国际语言,也包括像微博,贴吧等地方,都可以应用。
  引用:
  [1]Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.
  [2]By running on Spark, Spark Streaming lets you reuse the same code for batch processing, join streams against historical data, or run ad-hoc queries on stream state. Build powerful interactive applications, not just analytics.
  [3]ZooKeeper aims at distilling the essence of these different services into a very simple interface to a centralized coordination service.
  [4]The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.
  [5]Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.
其他文献
摘要:在高等教育内涵式发展的新时代背景下,众多高校积极实行大类招生的招生培养新模式以适应当代社会对创新型、全面发展的复合型人才的需要。然而,高校大类招生培养模式尚处于初步摸索阶段,在实际运行过程中,存在着诸多问题。本文以安徽财经大学为例,通过分析实施大类招生专业分流的现状,发现了专业分流结构化矛盾突出、学生专业选择非理性化、专业分流后续问题繁多等问题,并根据存在的问题提出相应的改进建议。  关键词
期刊
摘要:高职教育目标是培养“灰领”职员,即应用型人才。为了实现这一目标,高职院校不断对各种教学方法、模式进行实践教学验证以及对毕业学生毕业后用人单位反馈信息分析,证实建构主义教学模式为主,传统课堂为辅是高职教育的最佳模式模式。本文简要介绍了建构主义的教学理念,并对建构主义教学模式在高职会计教学中的应用及应注意的问题进行了积极的探索,以期为同行提供学习和交流。  关键词:建构主义模式;高职会计;实务教
期刊
摘要:大数据是近年来最著名的创新技术,代表了最先进的技术,大数据的使用是所有领域中的重要问题。本文通过聚焦大学生社会责任意识培养,结合大数据的背景,对当前所存在的问题:难以提升大学生的正确价值观、核实数据收集的真实性较为困难、数据分析的科学性难以控制、数据反馈的速度比较低进行了分析探索,并总结了对应的策略建议。  关键词:大数据;大学生;社会责任  1.大数据概述  1.1大数据的概念  大数据是
期刊
摘要:动力电池是新能源型汽车的技术核心之一,在当下新能源汽车稳定发展的环境下得到了充分重视,有关汽车制造企业不断探索着利用新型材料或技术对现有电池进行改善,对新型电池的研发成为了新能源汽车领域中的一大重点。在现代信息技术充分发展的环境下,新能源成为了新时代的发展方向,对动力电池的改革也成为必然。本文对不同的新能源汽车动力电池进行分析,并探寻动力电池的应用现状、发展趋势,以供有关从业者进行理论参考。
期刊
摘要:随着我国社会经济的不断发展,中小学K12教育培训行业也呈现百花齐放的发展态势,由于中小学教育培训行业的市场准入门槛较低,导致培训机构数量众多,加之随着市场竞争的进一步加剧,面对激烈的市场竞争环境,西安K12教育培训机构市场存在诸如市场细分不具体、同质化竞争严重、线上线下结合度低、宣传服务等问题。  关键词:K12教育;培训机构发展现状  基于上述存在问题,为了在激烈的市场竞争中找到一条可持续
期刊
摘要:2020年新冠疫情突如其来,给高校教学活动带来巨大冲击,西南财经大学天府学院面对疫情,积极采用云教学模式,实现“停课不停学”。经过一学期的云教学实践,学校云教学模式日益成熟,学生和老师都适应了云端教学,并且实现了教学相长,本文对期间云教学模式进行有益总结,以期未来进一步完善云教学模式。  关键词:新冠疫情;云教学;总结研究  随着科学技术的发展,社会已进入全新的信息时代,人们获取信息的手段越
期刊
摘要:经济高速发展的当下,社会不诚信现象频发。外部环境的负面影响加之诚信教育的不足,高校大学生诚信缺失问题日益凸显,因此推动高校大学生诚信档案系统的建设刻不容缓。本文针对大学生诚信缺失的现状,分析诚信档案建设的必要性与可行性,并根据海关AEO认证标准制定思路,构想出可行的大学生诚信档案系统运行机制。  关键词:大学生;诚信档案;运行制度;大数据  诚信自古以来就是诸多先贤极为推崇的重要品质,是人立
期刊
摘要:饭店(酒店)服务专业顶岗实习是该专业人才培养计划的一个重要教学环节,也是培养高技能人才的重要途径。本文根据饭店(酒店)服务行业的顶岗实习方向,针对教学标准和涉及学校、合作酒店及实习学生个人的问题,结合相关调研的基础上,提出了一些实践性较强的应对措施,以供探讨和应用。  关键词:饭店(酒店)服务专业;顶岗实习  饭店(酒店)服务专业顶岗实习是职业教育人才培养计划的重要组成部分,是理论结合实际的
期刊
摘要:《员工培训与开发》课程教学服务于高职高专人才培养目标,坚持理论与实践相结合,以人力资源管理技能培养为主线,其培养学生掌握知识和技能方面的总任务就是:培养培训专员和培训开发专业人员岗位的综合技能。  关键词:培训开发;实践教学;项目设计  从传统观点来看,员工培训与开发是一门理论性、知识性的课程,基本没有实践性的教学内容。但是,根据我们几年来的教学实践,本课程并不是纯理论性的课程,而是具有较强
期刊
摘要:随着互联网+教学模式的探索不断深入,专业类课程如何有效利用互联网工具开展线上+线下混合式教学,是值得深度探索的。外贸实战类课程是一门时效性强、技能培养要求非常贴合新商科人才需求的理实一体化课程。通过借助在线开放课程、模拟实操软件、业务运营资源、双创孵化平台等教学手段,课程依岗设课、因时创境、以赛促教,通过混合式教学达到了一定的教学效果。  关键词:互联网+教学;教学模式重构;教学实施;教学效
期刊