论文部分内容阅读
当今社会,互联网已成为继电视、广播、报纸、杂志之后的“第五大媒体”,网络媒体作为一种重要的信息传播工具,其影响和作用日益增大,比如新闻媒体,尤其是国家新闻媒体如:前苏联的真理报等,能够提供关于国家政策和政府态度的直观信息。当事件变化时,新闻媒体对事件的描述特别是情感也会随之变化,比如,在911事件前后美国新闻媒体对阿富汗的态度就形成了鲜明的对比,由此可以推测911事件发生后美国与阿富汗的关系急剧恶化。由于互联网的迅速发展,网络上有海量的信息,依靠人力根据网络信息来对事件态势进行评估明显是不可能的,而从网页信息中估计事件态势可以推动社会学家、政治学家的研究工作或者为决策者提供可靠的决策依据,由此从网页信息中自动估计事件态势及相关的研究具有重要的现实意义。 本文研究的主要工作包括: (1)基于新闻事件的文本态势估计中,事件的当前状态的准确估计需融合事件的长期态势。本文以长期词典作为事件长期态势的特征表达,提出了长期特征与当前特征关联融合的概率特征关联算法。由事件的长期情报集训练得到长期词典,基于关键词相似度将长期特征与当前特征进行概率关联,得到事件的全特征表达,并提出了长期关联度指标与类别关联度指标评估概率特征关联算法的有效性。 (2)在word2vec的基础上,基于随机过程中的中餐馆过程实现了文档的向量化方法。LSTM能够克服传统RNN梯度消失的问题,由此文中构建了基于LSTM的软传感器模型,模型的输入以单篇文档为最小粒度。 (3)基于LSTM的软传感器模型的优势在于能够自主对事件的历史信息进行建模,实验证明基于LSTM的软传感器模型能够根据事件的历史信息与当前信息提高对事件的当前状态分类的准确度。