基于Web的动态评论抽取技术研究

被引量 : 0次 | 上传用户:baihuiguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的到来推动互联网由过去的信息发布平台转变为如今的信息交互平台,在这一平台上人们可以就自己感兴趣的话题发表意见、参与讨论并形成舆论效应,其中不乏恶意利用网络舆论者,因此舆情分析工作也越来越受到重视,而Web信息抽取则是舆情分析的基础工作。Web信息抽取是从无结构或半结构的网页中抽取特定信息的结构化描述。本文介绍了web信息抽取技术现状,针对现有技术对网页结构敏感、动态多级评论抽取研究较少等问题设计了一种半自动的信息抽取系统,该系统主要分为信息源获取与评论抽取两大模块。信息源获取模块是基于Chrome插件技术、利用浏览器API与消息传递机制开发的页面抓取工具,实现了动态页面完整内容的自动获取。评论抽取模块基于动态页面的视觉、结构、语义特征提出了LFSU概念,利用其定位性质进行不同评论组织模型下的评论区域识别,并给出了单级评论与多级评论的抽取方法。该信息抽取方法利用少数DOM树信息,并且不涉及复杂结构比对与聚类分析,算法效率高。通过实际环境下覆盖性实验结果分析发现,该信息抽取方法满足了博客舆情数据实际分析需求,对于评论数量大于1的页面有很好的抽取效果。其查全率、查准率和F值均达到92%以上。
其他文献
文章首先界定了环境伦理、群体性事件、环境群体性事件的概念,在此基础上详细阐述环境伦理视角下的环境群体性事件。随后陈述了环境群体性事件的内涵和特点,呈现目的利益性、复
针对破碎机锤头材料存在的问题:硬度和韧性偏低,无法很好地满足锤头的工况条件,不耐磨或容易破断等问题和不足,本文试制了高铬铸铁—碳钢复合锤头。以高铬铸铁为研究对象,研究复合
光学三维物体表面轮廓测量技术是信息光学的重要研究领域之一。光学三维轮廓测量由于其非接触性、高精度与高分辨率,在CAD/CAE、反求工程、在线检测与质量保证、医疗诊断、机器
近年来我国房地产业发展迅猛,二手房交易市场日益繁荣,二手房中介市场也随之火爆起来。但是由于我国规范房地产中介行业的法律法规不完善,导致大量的案件涌入法院。笔者通过对房
近年来我国知识密集型服务业的蓬勃发展使人们开始关注其在国际贸易中的竞争力。文章采用RNX和RCA指数定量考察我国知识密集型服务业历年来的国际竞争力变动趋势、知识密集型
无意思联络的数人侵权是实践中时常出现的一种特殊的侵权形态,它不同于共同侵权行为和共同危险行为,但对共同侵权行为的界定对于无意思联络的数人侵权行为有重大的影响。
花键广泛应用于动力传动装置,而无约束正挤压成形则是花键加工的一种先进工艺。从理论上分析花键无约束正挤压成形的可行性,确定合理的工艺参数并预测成形过程中可能发生的缺
从知识教学走向智慧教学,是高中政治课改革的价值诉求,但实现这一转向的具体路径研究还在探索中。以教育节律理论为指导,建构了智慧课堂新型教学模式。该模式以追求知识活力,
大学生创业孵化基地是大学生将创业理论和创业实践紧密联系的重要环节,是沟通学生、学校与社会三者之间的桥梁和纽带。通过分析苏州市大学生创业孵化基地在建设中存在的问题,
创业动机作为创业行为的直接动因,对于创业活动有着重要的调节和维持作用。通过对大学生创业现状的分析,阐述了大学生创业动机缺乏的原因,并提出了激发大学生创业动机的几点