基于微博话题的敏感信息分析方法

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:Aslaen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的发展和快速普及,互联网用户从被动地接受互联网信息转变成为主动创造互联网信息,这一改变极大地丰富了网络信息资源。网络中的淫秽色情、暴力恐怖、反动言论等敏感信息一直是公共信息网络安全监察部门关注的重点,然而社交媒体的非全面开放性,以及Ajax异步数据交换技术的应用等特点对网络安全监督管理提出了新的挑战和要求,如何保障互联网的信息安全和构筑绿色健康的网络环境引起了全社会的普遍关注。本文以社交媒体中最具特色的典型代表——新浪微博(以下简称“微博”)作为研究对象,将数据挖掘的理论和方法应用到微博话题的敏感信息检测中,分析和讨论在微博领域如何提高敏感信息检测率的问题。论文的主要工作有以下几个方面:1.设计并实现了能够登陆访问和抓取Ajax异步数据的微博话题采集系统。针对基于微博API的数据获取方式的局限性,本文设计并实现了能够登陆访问和抓取Ajax异步加载数据的微博聚焦爬虫,然后采用微博API与爬虫相结合的方式构建微博话题采集系统,实验证明采集系统的效率优于微博聚焦爬虫。2.研究适合微博话题数据预处理的方法。本文根据核心算法对目标数据的要求,结合原始数据的特征清洗数据;通过对四款中文分词器进行测评,选用性能最优的NLPIR汉语分词器完成分词;对比分析文本表示、特征降维和权重计算的不同方法,选择在时间效率、算法复杂度和符合客观性方面表现更优的向量空间模型(VSM)、文档频率(DF)和改进后的TF-IDF表示微博文本数据。3.提出了基于共现敏感词分类的敏感信息检测方法(DMCCTW)。本文在Hadoop下实现了基于MapReduce的Canopy并行敏感信息聚类算法;基于“共词现象”的思想,在K-Means聚类的基础上,对簇类的孤立点(或孤立群)进行建模,检测聚类中漏检的敏感信息。然后提出共现敏感词挖掘算法(AMCTW)以增加敏感词库覆盖率,使DMCCTW的检测率得到进一步提高。4.构建D3-Cloud词云平台实现数据可视化。本文借助图形化手段,根据话题中敏感信息数量及相应用户的行为特征,以词云的形式定性和定量地展示检测出的敏感话题和发布敏感信息的用户。通过分析隐藏的特征和关系,最终发现微博敏感信息扩散传播的又一途径——话题词。通过以上工作,论文完成了微博话题数据的敏感信息检测分析方法,实验证明本文的分析方法可行并且有效。
其他文献
该文从项目的场地环境分析、性质确定、设计主题与原则的拟定及方案布局与构想等方面,对临空经济区中央休闲区投标方案及其创作过程做了较为深入、全面的阐释。以挖掘方案创
目的 了解2012年中国西南地区Whire Union监测网络医院临床分离的革兰阳性球菌临床分布及耐药情况.方法 西南地区3家教学医院对临床分离的革兰阳性球菌采用VITEK-2微生物自动
目的观察血清降钙素原(PCT)和C-反应蛋白(CRP)检测对老年肺炎病情严重程度及预后的评估价值。方法选择我院感染内科2014年6月至2016年6月间收治的62例老年肺炎患者作为观察组,根
目的手术部位感染(surgical site infections,SSIs)是术后较为难治的并发症之一,SSIs的发生不仅会延长患者的住院时间,增加患者的住院成本,而且会增加患者术后的死亡风险,这在术后多
目的:研究中医治疗老年肺心病急性感染后期的临床效果。方法:选取我院2011年1月-2013年11月间诊治的老年肺心病急性感染患者100例,将其随机分为观察组和对照组各50例,对观察
随着微电子技术的进步和心脏医学发展,心脏电子植入装置(Cardiovascular Implant-able Electronic Device,CIED)包括普通永久心脏起搏器、埋藏式心脏复律除颤器(ICD)、心脏再同步
近年来,随着我国市场经济体制不断发展和人民生活水平的不断进步,对电力调度领域提出了更高要求。为应对当前环境和资源对电力行业发展的巨大挑战,大力推进电力调度系统信息
<正>近年来博客、微博的势头有所消退,但新一代网络技术造就的网络社群却呈澎湃之势。其中像"知乎""政见"这样以青年为主、注重知识的生产与传播的社群,逐渐形成越来越大的影