基于深度学习的安全新闻流行度预测研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:linshenxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻流行度预测是对新闻在未来时刻的点击量、评论数或者转发量的预测,通过对流行度的预测能够进行新闻质量评估,新闻排名,新闻推荐以及新闻检索等。新闻流行度的预测还能够缓解当今网络及社交媒体飞速发展带来的信息爆炸和信息过载问题。但是由于新闻存在时效性且生命周期较短为发布后的预测带来局限性,而发布前预测由于影响因素的多样性和难定义性也面临巨大的挑战。已有工作中对新闻进行发布前的流行度预测存在无法处理多源粗糙数据集且预测误差较大的问题。本文提出了一种基于Doc2vec的改进图排序关键句提取算法抽取新闻关键句;基于新闻表面信息和关键句以多特征融合的方式进行特征提取;结合神经网络结构门限循环单元训练回归预测模型并提出了一种能够处理多源粗糙数据集且极大降低预测误差的新闻流行度预测框架。本文的工作内容主要包括以下四点:(1)本文设计网络爬虫得到了来自国内10个信息安全门户网站的不同类型、不同结构的新闻数据,经过对数据的去重以及过滤等预处理操作后构造了可用于新闻分类、流行度预测以及自然语言处理等领域的中文数据集共25939条。(2)对新闻发布前进行流行度预测主要依赖新闻自身信息,不同来源、不同类型的新闻具有不同的新闻结构和组成元素。如何依靠新闻基本元素进行特征的挖掘和提取是影响框架预测准确度的关键因素。本文提出了一种多特征融合的特征提取方法,考虑到框架的通用性和未来可移植性,从新闻数据集中进行了基本特征挖掘并构建了文本特征子集合和元数据特征子集合;同时通过对新闻关键句进行提取并构建内容特征子集合。文本特征子集、元数据特征子集和内容特征子集融合构成最终的特征集合。通过多特征融合提取既能充分挖据新闻的基本信息,同时能够提取新闻内容的潜在特征。(3)与新闻的表面信息如新闻标题、新闻作者以及新闻类别相比,新闻正文中包含更多潜在信息如新闻主旨、新闻写作风格、新闻的新鲜感等。本文使用的数据集为来自于10个信息安全门户网站的新闻数据,数据集粗糙、结构不规范,且数据集中约80%的新闻为中长篇新闻,其中包含大量的冗余句。直接对新闻正文进行特征提取将面临巨大计算量以及无效计算。本文提出了一种关键句抽取算法,对新闻正文进行关键句的提取。基于Doc2vec得到新闻句子向量表达,根据TextRank得分及句子自身特征得分决定新闻分句的初始得分;对根据初始得分排名后的新闻句子进行相似度再平衡计算最终句子得分。(4)当基于回归预测在新闻发布前对新闻进行流行度预测时常用模型为机器学习线性回归模型,简单的线性回归存在较大的预测误差。本文首次将长短时间记忆网络LSTM(Long Short-Term Memory,LSTM)结构的简化变体门限循环单元GRU(Gated Recurrent Unit,GRU)结构结合全连接层引入该领域训练回归预测模型。通过多特征融合提取与门限循环单元进行回归预测结合的方式,本文提出了一种基于深度学习的多特征融合新闻流行度预测框架。与传统的处理方法相比,该框架能够处理本文的多源粗糙数据集并且极大降低预测的误差。同时由于本文使用的门限循环单元结构与长短时间记忆网络结构相比更加简单,能够缩短预测时间,提高计算性能。
其他文献
高海拔宇宙线观测站(Large High Altitude Air Shower Observatory;LHAASO)是以探索高能宇宙线起源、精确测量宇宙线分成分能谱、探索新物理等为科学目标而建设的一个地面探测实验项目。LHAASO将利用其复合探测器阵列和高灵敏度的优势,对高能宇宙线展开深入的观测和研究。其中广角切伦科夫望远镜阵列(Wide Field of View Cherenkov Tel
目前,癌症光动力治疗凭借其微创、重复给药和低毒副作用等优点引起研究者的广泛关注。光动力治疗利用光敏剂在光照条件下将能量传递给分子氧而产生活性氧(主要为单线态氧),进而导致肿瘤细胞凋亡。但肿瘤组织缺氧以及光敏药物肿瘤富集效果差等问题会限制单线态氧的产率,从而影响光动力治疗效果。为了实时监测光动力治疗进程,及时反馈单线态氧产生状况,本文设计了掺杂1,3-二苯基异苯并呋喃(DPBF)的单线态氧纳米探针,
随着网络流量数据量和种类的不断增加,传统的网络流量分类方法已经难以满足需求,基于机器学习的网络流量分类方法成为了网络流量分类的研究热点。但是机器学习模型的开发是个循环的过程,需要多次优化。在实际应用中,针对基于机器学习的网络流量分类模型的开发涉及多方面的工作,传统的开发手段就显得效率较低。现阶段国内外公开的机器学习管理平台有很多,但是还没有发现专门针对网络流量分类的机器学习管理平台。为此,本文设计
随着云计算技术的日益普及,以云存储为代表的数据外包服务正凭借其价格低廉、管理简化等特点而愈加的受到人们的欢迎。然而,数据外包服务也同时产生了许多问题与矛盾。一方面
习主席在党史学习教育动员大会上强调,要进一步感悟思想伟力,增强用党的创新理论武装全党的政治自觉。从基层实际看,把理论武装当口号喊、装点门面做做样子、不真学真用的问题仍然突出,需要各级紧贴青年官兵的思想实际和认知特点改进学习、深化武装,着力破除与真学真用不相适应的突出问题,不断推进党的创新理论武装在基层走深走实。
自2011年至2016年,我国进出口贸易总额增速持续下滑,贸易形势严峻。而“一带一路”倡议、人民币入国际货币篮子、外商投资法等一系列政策出台释放“制度红利”;2017年和2018年进出口总额增速大幅回升,贸易出现复苏迹象。如何提升对外贸易质量、推动贸易发展方式转型升级,以谋求我国在国际分工体系中的新地位,成为各界关注的重点课题。因此,本文以“一带一路”沿线41个国家(地区)为样本,探究国际分工视域
随着大数据与人工智能技术的广泛应用,数据背后蕴藏的巨大价值得以挖掘,同时带来也带来了不容小觑的隐私泄漏问题。如何在保障数据安全的前提下,实现大数据开放共享、高效挖掘日益成为重要的研究领域。为了应对数据挖掘中存在的隐私泄露风险,本文通过对大数据隐私保护技术进行深入研究,设计并实现了两种针对非结构化数据的隐私保护数据挖掘模型,能够有效地实现数据安全性与可用性之间的平衡。论文的主要创新性工作如下:(1)
“居住需要”是指人们能够较长时间住在一个地方的倾向,也是人对居住生活的愿望和要求。居住是人之于“生活世界”的重要维度。“居”不仅关涉人对空间的占有,还展现人的本质力量,也是人在现实生活中的居住体验和居住面貌,更是理解和把握现实人居住实践和生存境遇的重要路径。居住本质上是人的对象化的活动。海德格尔曾指出“人与空间的关系就是居住”的命题。作为人类首要的日常生活行为方式之一,人在一定的非居住空间和居住空
由于工厂企业生产过程不规范、保障措施不够健全,粉尘爆炸事故时有发生。通过火花监控设备探测点火源并将其快速消灭,是非常高效的预防措施。完善监管流程,建立远程实时监控平台,将火花监控设备接入网络进行统一管理,可以进一步保障安全生产。然而目前市场上的监控设备都没有加入网络功能,难以满足要求。本文设计并实现了一个以分布式、嵌入式为基础的管道火花自动监测控制系统,实时监控生产管道中的火花和设备运行状态等信息
近年来,文化翻译受到众多学者和译者的关注。乡土文学中的地方特色,不仅使得文学作品凸显地方风味,更会使得作品的文化价值得到提升。翻译乡土文学,既能让人们牢记地方文化,