基于新闻要素的在线新事件检测

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:hongyanzhiji761112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,在线新闻己成为人们获取信息的主要途径。然而互联网上的新闻杂乱无序、增长迅速,人们很难从如此庞大的信息库掌握有用的信息,特别是最新的消息动态。本文的研究对象一一新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出一个新闻话题未知种子事件的第一篇报道。本文主要针对新闻的四要素:时间、地点、人物和内容在新事件检测中的作用进行研究,把地名、人物和内容作为衡量报道和事件相似度的标准;并对支持向量机进行研究,探讨了它在新事件检测中的应用;进而提出了一种基于新闻要素的自动在线新事件检测方法。本文主要工作如下:第一,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道时间、地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;第二,为了解决事件中心随时间的漂移问题提出了事件中心模板动态更新算法,让事件中心模板随着新闻报道的不断加入而改变;第三,为计算报道和事件各部分对应特征的相似度提供了对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;第四,为了衡量报道和事件各部分的重要性,使用SVM模型训练得出各要素的权值;第五,以single-pass聚类算法为基础,同时在新事件检测中使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。最后,设计了一个实验系统,并从丢失率、误报率、标准化代价和时间复杂度四方面对本文采用的方法进行评测。通过与基准算法比较表明,使用基于新闻要素的方法能有效提高算法的性能。当报道向量大小为50、事件向量大小为200、使用计算得到事件质心的方法以及滑动时间窗口为4时,算法能够得到最优结果。使用基于手动调节参数的方法虽然也能得到很好的实验结果,但是需要频繁的进行参数调节且难以取得最优值;使用基于SVM的方法能得到更加优越的结果并且不影响算法效率。
其他文献
随着时代的发展,云计算引起信息技术的获取与服务模式发生革命性变革,它提供高性能计算资源服务和大规模的廉价共享资源,通过虚拟化技术为众多用户构建虚拟资源环境,在当前各
随着3G网络通讯技术的发展,移动互联网的应用越来越广泛,移动互联网和传统的互联网相融合成为未来的发展趋势。越来越多的人们希望通过接入移动互联网获耿自己需要的信息,而不受
基于二维断层扫描医学图像的三维重建属于医学图像处理与分析领域重要研究内容,其通过对二维断层数据进行分析和处理,还原出被检物体的三维模型,便于医生从多角度、多层次进行观
分布式哈希表(Distributed Hash Table,简称DHT)是结构化对等网络组网方式的核心,广泛应用于各种大规模的分布式系统,例如目前主流文件共享应用eMule和BT等。DHT提供了一种去中心
随着移动互联网技术的不断发展,移动应用已经越来越广泛。目前移动终端已经拥有了强大的处理和存储能力,移动终端正在从简单的通话工具变为一个综合信息处理平台。这也给移动应
近年来,计算机技术和计算机图形技术正以十分迅猛的速度发展,在软硬件技术的带动下,三维虚拟服装设计与展示系统也呈现出繁荣的景象,并且对服装行业市场产生了深远的影响。服装设
运动目标检测是计算机视觉领域的一个重要研究课题,在智能视频监控、人机交互、视觉导航等许多领域有着广泛的应用。当场景中的光照有变化,特别是突然变化时,运动目标检测会变的
软件测试作为保证软件质量和可靠性的一种重要技术,开销在整个软件开发成本中占有很大比重。随着测试驱动开发的流行,开发者需要花大量时间在测试和调试工作上。对于开发者,编写
随着地理科学和计算机科学的不断发展,地理信息系统(GIS)的应用领域也在不断扩展。空间数据的存储是GIS系统的组织基础,空间数据的存取效率在很大程度上影响着GIS系统的性能
第三代合作伙伴计划(3rd Generation Partner Project,3GPP)考虑到未来用户对多媒体业务的迫切需求,因此引入了基于SIP协议的IMS (IP Multimedia Subsystem,IP多媒体子系统)