论文部分内容阅读
随着互联网技术的发展和应用,网络已经成为人们获取信息的重要来源。与此同时,人们也可以利用网络的开放性、虚拟性、共享性与即时性作为自己表达观点、态度和情绪的平台。其主要表现形式大多以非结构化和半结构化的评论网页的形式,如产品评论、时事评论、新闻评论、影视评论、股票评论等。突发事件一旦发生,就是人们所评论的热点对象,由于近年来突发事件发生的频率、产生的影响、及其造成的损失都呈递增的趋势,加之网络舆情形成迅速,如不及时处理,将会在社会上产生巨大影响,这使得突发事件的应急管理及相关研究变得十分必要。对突发事件的网络舆情的掌控成为突发事件应急管理的关键,如何快速的从海量的网络文信息当中及时地掌控关键的信息,成为亟待解决的问题。经过长期分析研究,对抽取网络相关文档的信息产生突发事件网络舆情摘要,以分析摘要取代海量数据的分析,是一种可行的解决办法。本文试图将事件抽取技术、意见抽取技术以及自动摘要技术综合起来,对突发事件引发的网络舆情产生摘要使用户通过摘要信息就能够熟知所发生的事件,以及网络民众对该事件的看法和舆论走向。
本文通过对不同网络信息源的结构进行分析,设定相应的抓取模板使信息采集系统能够有效地根据特定的信息源进行定向循环数据采集,并实现定站定主题检索,同时执行多个抓取任务,各个任务之间互斥并发执行。在断句环节上,突破以往单纯以标点符号作为断句标志的局面,通过建立指示词表作为句子切分与组合的重要手段。采用KTDictSeg中文分词系统,作为系统的分词组件。为提高KTDictSeg的分词的精度,在KTDictSeg的基础上对该软件的人名等未登录词识别和新词发现做了改进,实验证明,该分词系统的分词速度理想,分词准确率达百分之九十以上。并以层次法聚类的思想为基础,设计了一种句子聚类算法,并通过实验数据证明该算法还适用于文本聚类。以H.P.Edmundson提出的四个决定句子重要性的方法为基础,设定了若干句子重要度评分规则,用于句子重要度的计算。句子的情感分析是网络舆情摘要的关键,为了获得句子的情感值,本文以HowNet为基础建立了情感词表、程度副词表,并在此基础上增加了否定副词表、语气助词表等词表辅助情感计算。最后根据句子突发事件网路舆情摘要的句子抽取规则及摘要润饰规则产生网络舆情摘要,并以内部评价的方法对网络舆情摘要进行评价,实验结果证明该摘要产生算法是切实有效的。