基于VSM模型和ILDA模型联合建模的新闻话题发现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cutexsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速迅猛发展,互联网用户可以更加容易地从网络上获取日常关心的热点话题。网络新闻已然成为人们获取新闻信息的主要媒介之一,相比传统新闻媒体,网络新闻在报道重大事件上更具有时效性与互动性。在这个时间就是金钱,效率就是生命的当代社会,如何有效组织某个热门新闻话题帮助用户快速了解热点事件已经成为人们亟待解决的认知需求。话题发现与追踪是近几十年自然语言处理、信息检索领域的一项热门研究方向,该技术能有效帮助人们快速组织网络上的海量信息,缓解人们面对海量新闻时的无力感,此外,国家机关需要快速了解广大群众面对舆情事件的态度并做出相应决策。因此,面向网络新闻的热点话题发现具有现实需求意义。运用于该领域的主流模型有VSM(Vector Space Model)和LDA(Latent Dirichlet Allocation)模型,到目前为止,这两个模型在该领域的研究取得了较好的效果。传统VSM运用于该领域时建模过程简单,操作容易,但是忽略了文本内容的语义相关性;而LDA模型能有效解决这个问题,能充分地表达文本内容的语义,但在运用于该领域的文本表示时需要人为设定话题数目的K值。针对上述问题,本文做了一些相关的研究工作。本文的主要贡献和创新点如下:1.本文提出一种基于VSM与ILDA (Infinite LDA)联合建模的新闻话题发现算法,该联合建模方法能充分利用两种模型各自优势并能避免使用单一模型的不足,有效地解决了话题发现领域文本建模所面临的问题。2.考虑到新闻标题能简要概括新闻报道的核心内容,即标题中出现的特征词应当给与更高的权重,本文改进了传统的TF-IDF算法,给予同时出现在标题和正文的特征词更高的权重,有效保证特征提取的正确性和有效性。3.在此话题发现算法的基础上,我们引入衰老理论,提出基于能量热度的热点话题排序算法,首先利用衰老理论对话题建模,然后对各时间片内产生的话题分别进行能量热度计算,并关联相邻一段时间片该话题的能量热度,然后利用话题衰减移除算法删除能量热度较低的话题最后按照能量热度递减的顺序实现热点话题的排序。在真实的网络新闻语料上我们进行大量实验证明了本文提出方法的有效性。
其他文献
随着互联网规模的扩大及网络应用的递增,网络状况不断恶化,拥塞现象频频产生。为了缓解网络拥塞,需要实施一定的拥塞控制算法。当前的拥塞控制算法根据实现的TCP/IP层次可以分为
无线Mesh网络(WMN,Wireless Mesh Network)是一种新型的宽带无线网络结构。由于其自身的特点,使得这种网络形式已经开始融入到包括家庭网络、企业网、公共网络和智能传输系统
汉语句法分析是中文信息处理领域极具挑战性的课题之一。其任务主要是:根据特定的语法把给定的句子转化为词语之间彼此关联的结构形式。随着大数据与信息处理技术的发展汉语句
移动ad hoc网络由于其自身的特点,使其相对于传统的有线网络而言,更易遭受攻击,因此对ad hoc网络的安全的研究成为一个热门的研究课题。   入侵检测作为保护系统和网络安全的
随着经济的快速发展,企业对控制系统的要求也越来越高。但是,自封闭式的传统控制系统难以实现设备、系统、外界之间的信息交换,存在严重的“信息孤岛”现象,难以满足企业对企业信
学位
三维线条的绘制在图形学与可视化领域中有着广泛的应用,如三维模型的线绘制,弥散张量成像纤维(DTI Fibers)的绘制,以及流体可视化中流线(Streamlines)的绘制等。与其他的表现
随着经济贸易的增长,物流效率的提高成为物流产业发展的一个主题。集装箱作为物流活动中最为重要的工具之一,其优化问题的研究直接影响着企业物流费用的支出。集装箱装载问题是
自20世纪90年代以来,信息检索正在向着领域化、智能化方向发展,而提高检索的质量,推出令人满意的检索技术成为了全世界范围的研究前沿和热点。本体作为表达知识的共享概念模
目前,网络拥塞算法主要在源端、网络端和基于控制论这三个领域。本文是基于控制论这个领域进行研究。论文在介绍网络拥塞的概念、原因和研究状况的基础上,分析常见的拥塞算法
位基服务(LBS, Location-Based Service),一直以来是一个研究热点问题。随着移动互联网的迅猛发展,近几年来,智能移动终端越来越多地出现在人们的工作和生活中,扮演着举足轻