论文部分内容阅读
随着社交媒体的发展和快速普及,互联网用户从被动地接受互联网信息转变成为主动创造互联网信息,这一改变极大地丰富了网络信息资源。网络中的淫秽色情、暴力恐怖、反动言论等敏感信息一直是公共信息网络安全监察部门关注的重点,然而社交媒体的非全面开放性,以及Ajax异步数据交换技术的应用等特点对网络安全监督管理提出了新的挑战和要求,如何保障互联网的信息安全和构筑绿色健康的网络环境引起了全社会的普遍关注。本文以社交媒体中最具特色的典型代表——新浪微博(以下简称“微博”)作为研究对象,将数据挖掘的理论和方法应用到微博话题的敏感信息检测中,分析和讨论在微博领域如何提高敏感信息检测率的问题。论文的主要工作有以下几个方面:1.设计并实现了能够登陆访问和抓取Ajax异步数据的微博话题采集系统。针对基于微博API的数据获取方式的局限性,本文设计并实现了能够登陆访问和抓取Ajax异步加载数据的微博聚焦爬虫,然后采用微博API与爬虫相结合的方式构建微博话题采集系统,实验证明采集系统的效率优于微博聚焦爬虫。2.研究适合微博话题数据预处理的方法。本文根据核心算法对目标数据的要求,结合原始数据的特征清洗数据;通过对四款中文分词器进行测评,选用性能最优的NLPIR汉语分词器完成分词;对比分析文本表示、特征降维和权重计算的不同方法,选择在时间效率、算法复杂度和符合客观性方面表现更优的向量空间模型(VSM)、文档频率(DF)和改进后的TF-IDF表示微博文本数据。3.提出了基于共现敏感词分类的敏感信息检测方法(DMCCTW)。本文在Hadoop下实现了基于MapReduce的Canopy并行敏感信息聚类算法;基于“共词现象”的思想,在K-Means聚类的基础上,对簇类的孤立点(或孤立群)进行建模,检测聚类中漏检的敏感信息。然后提出共现敏感词挖掘算法(AMCTW)以增加敏感词库覆盖率,使DMCCTW的检测率得到进一步提高。4.构建D3-Cloud词云平台实现数据可视化。本文借助图形化手段,根据话题中敏感信息数量及相应用户的行为特征,以词云的形式定性和定量地展示检测出的敏感话题和发布敏感信息的用户。通过分析隐藏的特征和关系,最终发现微博敏感信息扩散传播的又一途径——话题词。通过以上工作,论文完成了微博话题数据的敏感信息检测分析方法,实验证明本文的分析方法可行并且有效。