论文部分内容阅读
Web2.0时代的到来推动互联网由过去的信息发布平台转变为如今的信息交互平台,在这一平台上人们可以就自己感兴趣的话题发表意见、参与讨论并形成舆论效应,其中不乏恶意利用网络舆论者,因此舆情分析工作也越来越受到重视,而Web信息抽取则是舆情分析的基础工作。Web信息抽取是从无结构或半结构的网页中抽取特定信息的结构化描述。本文介绍了web信息抽取技术现状,针对现有技术对网页结构敏感、动态多级评论抽取研究较少等问题设计了一种半自动的信息抽取系统,该系统主要分为信息源获取与评论抽取两大模块。信息源获取模块是基于Chrome插件技术、利用浏览器API与消息传递机制开发的页面抓取工具,实现了动态页面完整内容的自动获取。评论抽取模块基于动态页面的视觉、结构、语义特征提出了LFSU概念,利用其定位性质进行不同评论组织模型下的评论区域识别,并给出了单级评论与多级评论的抽取方法。该信息抽取方法利用少数DOM树信息,并且不涉及复杂结构比对与聚类分析,算法效率高。通过实际环境下覆盖性实验结果分析发现,该信息抽取方法满足了博客舆情数据实际分析需求,对于评论数量大于1的页面有很好的抽取效果。其查全率、查准率和F值均达到92%以上。