基于云计算的网络舆情热点发现研究

来源 :内蒙古工业大学 | 被引量 : 6次 | 上传用户:yuanpeihai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,互联网传播成为主要的社会信息传播方式,当社会上出现了突发的敏感事件时,公众舆论会迅速集聚在网络上,网络舆情事件也就随之形成。由于网络舆情具有内容丰富、信息量大、相关话题繁多等特点,这也让网络上更容易出现传统意义上的低俗、露骨、色情、暴力,甚至是危害国家和谐、稳定和安全的信息与言论,网络舆情热点发现可以帮助决策者快速准确的对网民聚焦的话题进行关注。网络舆情热点发现整个过程就是一个文本挖掘过程,但传统的文本挖掘过程难以适应网络舆情所具备的上述特性,故解决挖掘算法在效率、适应性和可用性等方面的瓶颈问题变得日益重要。基于上述背景,本文参考借鉴近年来文本挖掘领域的相关理论与技术的最新研究成果,对传统的文本挖掘模型进行了分析研究,并进行了包括数据采集、中文分词、特征提取、特征项权重计算、文本特征向量空间表示模型的建立、相似度分析、聚类算法和热度分析的实现。针对传统文本表示模型建立过程中存在的特征项过多的问题,结合网络舆情数据具备的短文本特性,给出了基于语义特征项频率的舆情短文本表示模型降维方法,以降低文本表示模型的维度;在聚类算法中选取了经典的增量聚类算法Single-Pass,针对该算法存在的不足,给出了改进Single-Pass聚类算法,以解决聚类过程中算法对输入数据顺序的敏感性和求解效率的问题,并提出了网络舆情热度分析模型;在上述工作基础上,对数据预处理部分和聚类分析部分进行了基于MapReduce的并行化处理和实验验证,并利用图表对求解效率和求解质量进行了分析。本课题所研究的基于云计算的网络舆情热点发现方法,在一定程度上解决了传统的文本挖掘模型在处理海量中文文本数据时能力不足的问题。本课题方案成本较低,易于扩展,可以作为一种有效的网络舆情监控手段,并应用在实际工作中。
其他文献
宁波与舟山同属于浙江省地级市,两地一水之隔。笔者在调查中发现宁波【马灯调】与舟山民间音乐的关系密切,因此本文选取宁波【马灯调】与舟山【马灯调】、【码头调】和渔民号
随着我国经济水平的不断提升,老年人的寿命有所延长,完善的养老政策显得十分重要。但是就目前我国医疗水平发展来看,我国老年人护理服务需求仍然需要不断完善。我国养老事业
在刚刚过去的国庆假期里,共享图书可谓火了一把。先是有一款名叫“亿屏借书”的家庭图书共享平台在武汉问世,引起关注。这个平台通过移动互联网连接千家万户的书房,让图书在左邻
报纸
对战略矿产资源的保护,关系到中国的现实和未来,是国家安全与利益的底线。
<正>乳腺癌是妇科临床常见的一种疾病,近年来呈显著增长趋势,而微钙化为乳腺癌重要影像学特征,在乳腺癌诊断过程中具重要临床价值。随着超声技术不断进步与完善,超声对微钙化
为研究循环流化床炉内流动和燃烧产生的NO_x的不均匀性对SNCR(选择性非催化还原)脱硝效率的影响,针对炉内燃烧、喷氨和SNCR脱硝反应等一系列过程,建立了稠密气固流动耦合化学
幼儿教师继续教育管理贯穿继续教育的整个过程,对继续教育的效果起着至关重要的作用。本研究采用问卷法和访谈法,对幼儿教师在继续教育管理方面的现状与需求之间的差异进行了