面向Web话题的多文档文摘关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:danielwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上的文本信息的爆炸式增长,网络在提供了信息获取途径的同时却给人们带来了如何在每天都不断涌现的海量信息面前更快速、准确地获得有用的信息的难题。为了缓解这种矛盾,许多研究人员在文本挖掘、信息抽取和信息检索方面付出了很大的努力。然而,传统的信息检索技术在有效获取有用信息方面作用有限,这对如何有效地提炼各种文本信息中的知识提出了挑战。作为一种能从海量信息中快速、准确地获取有用信息的手段,自动文摘技术越来越引起人们的重视,尤其是如何从海量的Web话题信息中提取文摘内容的多文档文摘技术作为一个新的研究点,引起了研究界和产业界的广泛关注。   Web话题带有内容多元性、动态演化性等特点,由此给Web话题的多文档文摘方法的研究带来了众多的挑战。面对Web话题分析的挑战,本文首先分析了Web话题的特点,再从面向话题的多文档文摘方法的研究入手,分别从文摘计算粒度和话题表示两方面进行了文摘性能优化的研究,同时针对面向Web话题动态演化性的文摘需求,开展了动态多文档文摘的研究。本文主要的工作与创新性贡献如下:   首先,针对面向话题的多文档文摘方法的颗粒度选择的问题,在文档结构分析的基础上,本文提出了一种基于图的子话题划分的多文档文摘算法GSPS。GSPS方法是一种基于话题的逻辑结构优化的多文档文摘方法,采用了一种类似层次Markov链的模型,来解决Web话题内容多元性环境下的文摘对象颗粒度选择的问题。   接下来,针对面向话题的多文档文摘方法的话题表示偏差的问题,采用半监督学习中的集成学习思想来进行多文档文摘的研究,在文摘性能与话题表示之间相互增强关系的基础上,本文提出了一种多模型自适应的多文档文摘模型AdaSum。AdaSum借助Boosting的学习框架,可以很自然地利用话题与文摘间的相互增强关系,达到话题表示与文摘性能同步优化效果。AdaSum相对于几种基本文摘算法(MRP、LexRank等)能取得显著性的性能改进,同时与DUC2007实际系统相比也相当具有竞争力。   随后,针对Web话题动态演化的特点,本文基于时序分析给出了动态文摘任务的形式化定义,并在此基础上提出了一种时序内容过滤的动态文摘模型TCFM。本文给出了一种在句子和词项两种粒度上来解决动态信息识别和动态信息重要性度量的思路。依据这个思路,本文分别提出了采用内容过滤方法在句子层次上进行动态信息的获取和利用时序话题标志特征在词项上进行时序环境下动态信息度量的方法。最后,结合这两方面内容提出了一种一体化的动态文摘模型TCFM。在DUC实际语料上与最优系统的性能对比表明TCMF能取得明显的性能改进,同时TCFM在TAC2008的Update Summary的实际评测中分别在BE、ROUGE和Pyramid三大指标上取得了优异成绩,尤其在更新文档集上更是在三项指标上都取得了最优。   本文最后把上述研究成果应用于Web话题分析,并详细地给出了面向Web话题分析的多文档文摘原型系统Grasper的设计方案和系统实现。
其他文献
在迅速发展的集成电路制造工艺和不断提高的应用需求的推动下,系统芯片(System-on-Chip,SoC)集成了越来越多的功能模块。随着片上通信结构逐渐成为达到预定系统性能的瓶颈,以通信
学位
高光谱遥感技术作为遥感领域的一项重大突破,在保留较高空间分辨率同时,光谱分辨率有极大的提高。这使得无论在描述同类地物的细节方面,还是识别不同类别地物的能力等方面都有大幅提高。然而,高光谱数据具有波段数目众多、各波段相关性强、运算量大的特点,这对相应的处理技术提出了很高的要求。本文主要针对高光谱遥感的一个重要应用——分类问题,展开系统的研究,从影响分类精度的几个关键要素入手,即特征空间的维数、图像空
随着Internet技术的不断发展,网络信息技术正日益广泛地渗透到社会生活的各个方面。作为一个企业的基本通信平台、协作工作平台和知识管理的平台,办公自动化系统也正在被不同
随着计算机网络技术的发展,安全问题日益突出。一个安全系统至少应满足用户对系统保密性、完整性以及可用性的需求。IPSec是IETF提出的IP安全标准,它在网络层对数据进行加密和
学位
数据挖掘是一个多学科交叉研究领域,与机器学习和统计学紧密相关。作为数据挖掘核心内容之一的聚类是将物理或抽象对象的集合聚成由类似对象组成多个类的过程。这种方法所具
随着信息技术不断渗透到各个领域,它们对信息处理的需求也不断提高,因此,对空间数据库索引技术的研究愈发热门。其中,空间数据库索引技术是研究如何提高空间数据库的信息处理
异常检测是目前入侵检测领域研究的热点内容,针对网络攻击的不确定性,研究准确、高效的异常检测方法并将其应用于网络入侵检测系统设计中是十分有必要的。尽管目前已经有很多研
根据用户业务的需求,将基础服务按照一定的规则组合成功能更强大、关系更复杂的服务是当前的一个研究热点,服务组合技术是解决这一问题的关键。因此,对服务组合模型的研究有
WebGIS的产生和发展打破了传统GIS系统的封闭体系,为空间数据共享与交换提供了开放的平台,但它也面临着诸多问题需要解决:空间数据本身具有的平台相关性、存储格式多样性等造
随着Web信息的与日俱增,使用机器处理这种信息成为一种必然的趋势。语义Web应运而生,成为当前研究的热点之一。它以本体为核心,为不同领域提供共享的词汇,以便机器处理Web信息。