话题自动跟踪和梳理概括技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：qqq398705749

【摘要】

：

网络技术和信息处理技术的飞速发展，使得人们由信息贫乏时代进入到一个全新的信息极度丰富的时代。面对纷繁复杂、包罗万象的信息资源，人们感到无从下手、难以找到自己感兴趣的

【作者】

：

董理

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2008年期

【关键词】

：

话题自动跟踪梳理概括新闻要素信息抽取四维表示模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络技术和信息处理技术的飞速发展，使得人们由信息贫乏时代进入到一个全新的信息极度丰富的时代。面对纷繁复杂、包罗万象的信息资源，人们感到无从下手、难以找到自己感兴趣的信息，迫切需要计算机技术的强力支持，以应对日益加剧的信息爆炸。　　话题跟踪研究正是基于这样的需求提出的，它以新闻话题的后续报道流为处理对象，通过判断每篇报道所属的话题，实现对新闻话题后续报道的跟踪。话题跟踪和文本分类相似，但是由于新闻和普通文本的差异，使得我们能够利用新闻中的特征信息改进新闻话题的跟踪性能。在进行话题跟踪之后，可以得到每个新闻话题下的所有后续报道。进一步的工作任务是通过对同一话题下的大量新闻报道文本进行梳理与概括，以简便直观的方式呈现给读者，从而方便读者的快速阅读。　　本文在现有研究工作的基础上，针对上述两个研究任务的相关技术进行了探索。研究思路为：对新闻要素进行抽取和分析，改进新闻报道之间的相似度比较算法，从而优化新闻话题的跟踪；在此之后，结合新闻时间要素和内容新颖性对同一话题下的新闻报道进行去冗余，然后通过对报道进行摘要概括，提供了一种高效简便的关注新闻话题的方式。本文的主要工作包含如下四点：　　 (1)新闻要素的抽取　　新闻报道具有时间、地点、人物、事件四要素，据此，我们提出了一种四维的报道表示模型，从新闻正文中，分别对时间、地点、人物、事件信息进行抽取，填充到报道的四维表示模型中，以便进行下一步的报道比对和话题跟踪。　　 (2)基于新闻要素的话题跟踪　　话题跟踪是一个有导的分类过程，其中一个关键点是分类算法所采用的相似函数。针对我们提出的四维表示模型，综合了新闻报道在时间、地点、人物、事件四个维度的相关性，设计了相应的报道相似度比较算法，实现了基于新闻四要素的话题跟踪。　　 (3)基于新闻新颖性的话题梳理　　针对话题跟踪的结果，我们对同一话题下的所有新闻报道进行梳理，通过新闻时间要素和内容新颖性计算模型来进行报道冗余性判定，清理话题中的冗余报道，减少人们对兴趣话题中重复新闻报道的阅读数量，并基于新闻报道时间组织，方便人们的阅读浏览。　　 (4)基于篇章结构的新闻摘要　　新闻摘要的目的是通过对话题梳理后的新闻报道进行概括，方便人们对兴趣话题的快速阅读。我们首先分析新闻文本的篇章结构，然后根据各个主题的轻重、采用统计方法和启发规则来提取关键句、生成摘要。　　基于上述思路，本文对话题跟踪和话题梳理与概括两部分任务进行了实验和原型系统搭建。实验表明，本文采用的基于新闻四要素的话题跟踪策略能够提高后续新闻报道跟踪的准确率；而基于新闻新颖性判定和篇章结构摘要的技术能够满足我们对话题梳理与概括工作的设计需求。本文的工作是行之有效的，在这两部分任务中取得了一定的研究成果。

其他文献

动态需求跟踪方法的研究与实现

需求跟踪是需求工程的重要组成部分，为软件开发过程提供了有力的支持，它有利于确认系统的需求是否实现，管理需求变更和软件制品变更之间的相互影响，是实现有效的软件管理，提高软件

学位

软件开发动态需求跟踪向量空间模型信息检索自然语言处理

高速网络环境下基于TCP流的负载均衡算法的研究

日益突出的网络安全问题以及网络带宽的高速增长，给网络安全检测系统的性能带了很大挑战。因此，设计、实现适用于高速网络环境下的网络入侵检测系统(NIDS)的需求变得异常迫切。

学位

负载均衡模拟器网络安全网络带宽入侵检测系统轮循算法

D3Q7晶格离散三维脉动风场中的飘雪模拟

自然景观中飘雪的模拟,可以大大提高虚拟场景的逼真效果。雪花形态的不规则性、运动的无规律性以及受环境因素影响大的特点,使其建模方式和运动描述都非常困难。真实感的飘雪

学位

飘雪场景物理模型LBM风场建模D3Q7晶格模型三维雪花模型

多维数据中异常单元与异常趋势挖掘子系统的设计与实现

随着数据仓库和OLAP技术的发展，越来越多的企业运用OLAP技术分析多维数据，以支持管理决策。数据立方体中可能存在异常。对用户来说，异常可能意味着有待解决的问题，或者存在着商机

学位

多维数据数据挖掘系统设计Top-K异常单元异常度时间序列

基于元群组的动态社群识别算法研究

社会网络分析作为一种应用性很强的社会学研究方法,成功地解决了许多社会学问题。以前的社会网络分析研究,主要集中在小规模人工收集的数据集之上。随着Internet的发展,大量

学位

网络数据网络数据数据挖掘数据挖掘识别算法识别算法

空间数据管理与维护系统设计

空间数据管理和维护技术是卫星数据应用系统的关键技术之一，对于推动卫星数据应用的发展有不可或缺的重要意义。本文在分析数据管理的各种先进技术的基础上，设计了卫星地面应用

学位

空间数据管理空间数据维护XML数据交换数据安全人机交换模块

科学工作流建模方法及关键技术研究

工作流的概念起源于生产组织和办公自动化领域。近年来，随着计算机与网络技术的迅速发展，特别是网格技术的诞生，工作流技术已被广泛地应用到各个领域。本文重点研究了一种特殊的

学位

科学工作流建模技术复杂问题求解资源调度算法上下文模型

一个基于Gabor和SVM的人脸确认算法

人脸识别技术是近年来的热门研究内容,涉及模式识别和计算机视觉等方面的学科,在新一代人机交互技术和安全等领域的应用吸引了众多研究者的注意,具有重要的理论意义和应用价

学位

人脸确认人脸确认小波特征小波特征支持向量机支持向量机门禁系统门禁系统Gabor特征Gabor特征SVM分类器SVM分类器

P2P流量识别系统的设计与实现研究

最近几年，网络进一步普及，而人们对信息量以及信息获取速度的要求也在不断提高。基于此，对等网络(P2P)的用户规模、应用类型和流量也在不断增长。分析结果表明，基于P2P的语音通信

学位

P2P网络流量识别系统TCP/IP协议负载均衡

构造无线传感器网络的小世界效应研究

随着无线传感器网络在工业、军事、医疗护理、环境监测和保护等各方面的发展和应用,无线传感器网络已逐渐渗入到人类日常生活的很多领域。由于无线传感器网络是一个十分有限

学位

无线传感器网络小世界效应能量消耗仿真实验拓扑结构

话题自动跟踪和梳理概括技术研究

其他学术论文