突发事件网络舆情自动摘要关键技术研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:lwh020827
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和应用,网络已经成为人们获取信息的重要来源。与此同时,人们也可以利用网络的开放性、虚拟性、共享性与即时性作为自己表达观点、态度和情绪的平台。其主要表现形式大多以非结构化和半结构化的评论网页的形式,如产品评论、时事评论、新闻评论、影视评论、股票评论等。突发事件一旦发生,就是人们所评论的热点对象,由于近年来突发事件发生的频率、产生的影响、及其造成的损失都呈递增的趋势,加之网络舆情形成迅速,如不及时处理,将会在社会上产生巨大影响,这使得突发事件的应急管理及相关研究变得十分必要。对突发事件的网络舆情的掌控成为突发事件应急管理的关键,如何快速的从海量的网络文信息当中及时地掌控关键的信息,成为亟待解决的问题。经过长期分析研究,对抽取网络相关文档的信息产生突发事件网络舆情摘要,以分析摘要取代海量数据的分析,是一种可行的解决办法。本文试图将事件抽取技术、意见抽取技术以及自动摘要技术综合起来,对突发事件引发的网络舆情产生摘要使用户通过摘要信息就能够熟知所发生的事件,以及网络民众对该事件的看法和舆论走向。   本文通过对不同网络信息源的结构进行分析,设定相应的抓取模板使信息采集系统能够有效地根据特定的信息源进行定向循环数据采集,并实现定站定主题检索,同时执行多个抓取任务,各个任务之间互斥并发执行。在断句环节上,突破以往单纯以标点符号作为断句标志的局面,通过建立指示词表作为句子切分与组合的重要手段。采用KTDictSeg中文分词系统,作为系统的分词组件。为提高KTDictSeg的分词的精度,在KTDictSeg的基础上对该软件的人名等未登录词识别和新词发现做了改进,实验证明,该分词系统的分词速度理想,分词准确率达百分之九十以上。并以层次法聚类的思想为基础,设计了一种句子聚类算法,并通过实验数据证明该算法还适用于文本聚类。以H.P.Edmundson提出的四个决定句子重要性的方法为基础,设定了若干句子重要度评分规则,用于句子重要度的计算。句子的情感分析是网络舆情摘要的关键,为了获得句子的情感值,本文以HowNet为基础建立了情感词表、程度副词表,并在此基础上增加了否定副词表、语气助词表等词表辅助情感计算。最后根据句子突发事件网路舆情摘要的句子抽取规则及摘要润饰规则产生网络舆情摘要,并以内部评价的方法对网络舆情摘要进行评价,实验结果证明该摘要产生算法是切实有效的。
其他文献
期刊
全流通过渡必须是一个平稳渐进的过程,如果市场出现大起大落,不仅前期股权分置改革的丰硕成果不保,而且还会给市场根基带来严重的损伤。中国的股市要顺利平稳地过渡到全流通
目的探讨氧化石墨烯装载多柔比星对乳腺癌移植瘤模型肿瘤细胞凋亡的作用。方法用裸鼠皮下乳腺癌MCF-7细胞注射法建立移植瘤模型,模型制作成功后将模型鼠分为对照组、氧化石墨
目前数字出版在我国正处于迅速发展的时期,而网络游戏作为数字出版中非常重要的一个组成部分,其市场规模和用户群体正在以令人吃惊的速度逐年增长。随着网络游戏在中国的发展进
[目的]本文以天山中部北麓为研究区,利用空间分辨率250m、16 d合成的植被指数产品(MODIS13QI),计算2000-2017年期间研究区年度、春季、夏季和秋季的植被覆盖度.[方法]通过运
储热技术是太阳能热发电和热电联产领域中的关键技术之一,其以储热材料为媒介,将太阳能光热、工业余热、低品位废热等热能储存起来,在需要的时候释放出来加以利用,以解决能量
[目的/意义]厘清图书馆智库职能构成,探索图书馆智库能力提升策略,为当前图书馆智库建设提供参考.[方法/过程]基于“信息-知识-智能”一体化理论,结合实践调研,界定图书馆智
档案工作在我国源远流长,但档案学作为一门独立学科诞生于20世纪30年代,初期有过短暂的发展,建国后进入新的发展时期,研究范围从业务经验总结上升到理论体系研究。改革开放之后至
本文从公民档案开放和公民档案利用权利的相关理论出发,结合国内外已有的相关研究成果,运用调问卷调查法和实地走访调查的方式,对公民档案利用行为及档案馆档案利用现状展开
图书馆和各类文献信息服务中心都是用户获取高质量的文献信息的首选机构。数字信息时代,越来越多用户通过互联网访问的方式获取科技文献信息,可获取的用户信息行为数据越来越丰