论文部分内容阅读
近年来,随着Web2.0技术的不断发展,博客空间已经成为一种社会大众广为接受的舆论交汇场所,一系列简单、独立的网络日志也因此逐渐发展为一种虚拟的社会形式——“博客群”。本文结合网络虚拟社会中舆情安全监控的实际需求,深入分析博客群中热点主题的舆情导向,提出了一种基于文本倾向性分析的博客热度评估模型(简称BHEM-TOA)。
该模型的设计着重考虑以下三个方面:第一、博客网页的信息抽取。第二、博客群中不同评论人对于某个主题主观倾向性的判定(支持、反对或中立)。第三、综合考虑博客主题浏览量、评论数、发表时间以及其他评论人的主观倾向,全面评估博客热度。在具体计算过程中,模型首先深入分析博客页面的结构特点,使用基于模板的Web信息抽取方法,抽取并过滤博客主题及其相关评论,去除如广告、页面通用文字等无关信息,为进一步博客热度评估提供数据支撑。其次,该模型以中文字符作为基本处理单元,提出了一种面向博客评论的中文文本倾向性分析方法,并根据评论文本篇幅长短不一的数据特点,分别提出了两种不同的处理策略。具体来说,对于篇幅较短的目标文本,模型通过计算字符倾向权重之和,实现目标评论倾向性的判定;对于较长篇幅评论文本,则考虑字符倾向性权重以及倾向性字符在目标文本中的整体分布密度的综合影响,全面评估评论的语义倾向。最后,该模型定时统计在一定时间范围内,主题评论中表支持与反对态度的评论比例,结合主题浏览量、评论数以及时间因子,实现博客及其主题的热度评估。该方法在有效评价博客热度的同时,进一步解决了传统博客热度评价指标(浏览量、回复量)单一的不足。
在验证实验中,我们构建了博客信息抽取测试集、文本倾向性分析测试集以及博客热度评估测试集,分别对模型的“博客信息抽取”、“评论文本倾向性分析”以及“博客热度评估”模块的有效性进行了验证。实验结果表明,与传统的博客热度评估方法相比,该模型能够更加真实地反映博客的实际热度,具有较好的实用价值。