基于文本倾向性分析的博客热度评估模型

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:yusaihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0技术的不断发展,博客空间已经成为一种社会大众广为接受的舆论交汇场所,一系列简单、独立的网络日志也因此逐渐发展为一种虚拟的社会形式——“博客群”。本文结合网络虚拟社会中舆情安全监控的实际需求,深入分析博客群中热点主题的舆情导向,提出了一种基于文本倾向性分析的博客热度评估模型(简称BHEM-TOA)。   该模型的设计着重考虑以下三个方面:第一、博客网页的信息抽取。第二、博客群中不同评论人对于某个主题主观倾向性的判定(支持、反对或中立)。第三、综合考虑博客主题浏览量、评论数、发表时间以及其他评论人的主观倾向,全面评估博客热度。在具体计算过程中,模型首先深入分析博客页面的结构特点,使用基于模板的Web信息抽取方法,抽取并过滤博客主题及其相关评论,去除如广告、页面通用文字等无关信息,为进一步博客热度评估提供数据支撑。其次,该模型以中文字符作为基本处理单元,提出了一种面向博客评论的中文文本倾向性分析方法,并根据评论文本篇幅长短不一的数据特点,分别提出了两种不同的处理策略。具体来说,对于篇幅较短的目标文本,模型通过计算字符倾向权重之和,实现目标评论倾向性的判定;对于较长篇幅评论文本,则考虑字符倾向性权重以及倾向性字符在目标文本中的整体分布密度的综合影响,全面评估评论的语义倾向。最后,该模型定时统计在一定时间范围内,主题评论中表支持与反对态度的评论比例,结合主题浏览量、评论数以及时间因子,实现博客及其主题的热度评估。该方法在有效评价博客热度的同时,进一步解决了传统博客热度评价指标(浏览量、回复量)单一的不足。   在验证实验中,我们构建了博客信息抽取测试集、文本倾向性分析测试集以及博客热度评估测试集,分别对模型的“博客信息抽取”、“评论文本倾向性分析”以及“博客热度评估”模块的有效性进行了验证。实验结果表明,与传统的博客热度评估方法相比,该模型能够更加真实地反映博客的实际热度,具有较好的实用价值。
其他文献
图像分割是一种重要的图像处理技术,在理论研究和实际应用中都得到了人们的广泛重视,是进行图像分析的前提和关键之一。因此,图像分割的研究具有重要的意义。   遗传算法是一
名实体识别是自然语言处理领域的研究热点之一,在信息抽取、自动问答等信息处理任务中都有十分重要的意义。随着现代科技的高速发展,除人名、地名、机构名之外,其它类别的名
近年来,随着空间测绘技术的发展,地形数据在精度和广度上不断深化,出现了覆盖全球的地形数据。如何有效地组织地形数据,对大规模地形进行内外存建模,实现无约束全景漫游,是当
中医是我国的瑰宝,对名老中医经验的总结不仅能丰富中医学的理论体系,还能对中医学的学术进步产生巨大的推动作用。大量宝贵的中医经验数百千年来都是靠手工的文本记录来传承的
连铸生产跟踪系统是钢铁信息系统的一个实例,目标是实现连铸生产线的生产自动化管理。本文以此开发为基础,研究和应用MDA模型驱动架构相关技术,作为系统设计开发的指导思想来实
传统的基于关键词的信息检索不能理解用户的需要,仅仅对关键词进行简单的匹配,其结果往往包含大量与用户实际需要毫不相干的没有价值的信息,同时却丢失用户实际需要的信息,其检索
制造执行系统(Manufacturing Execution System,MES)是位于上层的计划管理系统与底层的工业控制之间的面向车间层的管理信息系统,在企业信息化中发挥着重要作用。随着企业信息
现代软件企业面临着巨大的开发压力。在软件工程中,科学的软件度量可以在预研,开发和评估阶段提供数据支持。因此,软件度量是软件工程的必要环节。而在软件度量中,软件功能规模度
网格计算是近年来新兴的一种技术,它的目标是资源共享和分布协同工作。网格环境下的数据传输有带宽高、容量大等特点,但是目前这方面的研究并不多。人们对于网络带宽的需求日益
语义角色标注是目前语义分析的一种主要实现方式,它也是近年来自然语言处理领域的一个研究热点,是信息抽取、信息检索、阅读理解、问答系统等多种自然语言处理技术的重要基础