基于集聚的自动文摘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kingwangcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动摘要是自然语言处理领域的一项重要任务,它不仅要求把握原文的语法结构特点,还需要理解原文的内容。为此,本文进行了计算语言学领域内一项研究,提出一种词汇集聚关系构造方法用于改进的词汇链构造算法,并将构造的以词汇链形式表现的文本集聚结构作为理解文本中重要内容的线索应用于单文档自动摘要;同时对多文档集,研究了应用融合集聚和连贯分析于多文档文摘生成的方法。本文主要从如下几个方面进行了研究。  当前文本处理方法中存在孤立考虑各当前文本处理方法中存在孤立考虑各关键词、忽略词间语义关系的问题,为解决这些问题,本文研究了文本集聚结构的构造方法。该方法首先基于词汇资源HowNet构造词汇集聚关系,然后通过将该关系作为词间关联标准的词汇链构造算法导出篇章集聚结构,从而得到实际的文本内容的表达,以准确有效地进行知识发现。在改进的词汇链构造算法中,利用了更多词条及词条间关系,提出了HowNet中多义项消歧的算法,并根据知识库的特征来确定链构造规则等,使其更适合于文本的处理。利用两种不同词汇资源的集聚方法的结果显示了文本中词汇链接的可理解性、可计算性,词汇链很好地指示了文本结构和主题。  为进一步改进文摘的质量,本文将集聚结构作为文本主题的线索,研究了基于集聚的中文单文档自动摘要方法。随着自然语言处理技术的发展,提出了许多单文档自动摘要方法,但文摘的提取仍存在浅层线索特征缺乏严格的判断标准、统计特征不易确定其边界、深层知识难以获取等问题,生成的文摘质量仍然难以令人满意。所研究的方法不需要难以获取的深层知识,并且即使在浅层特征没有出现在文章中时,也能检测到文章的重要内容。评测结果显示,该方法生成了具有良好流畅性和连贯性的指示性文摘,基于该方法的系统性能在精确率和召回率上比基于原词汇链方法的系统性能有明显提高,系统具有较好的通用性。此外,还分析比较了采用不同词汇资源HowNet和同义词词林的自动摘要系统的性能。  互联网的海量信息增加了人们对快速、准确地获取有用信息的需求,为进一步改进现有的多文档自动摘要技术,本文将以词汇链形式表现的集聚结构和以话语线索短语形式表现的连贯结构用于多文档自动文摘的生成。其中,文本连贯分析是依靠关系类型集匹配文本片断和使用一个预先定义的优先级等级。该方法依据概念频率而不是词频作为重要性的一个辅助判断,并基于词汇语义进行语义相似度计算。由于多篇文档中的词汇转换,这样的方法能减少多文档文摘的冗余度并增加其信息量。在评测实验中,我们不仅依靠F-度量值进行定量评测,还使用人类专家来主观评测方法生成的文摘。结果显示,所提出的摘要方法能更好地捕获多文档的内容和主题并适应于各领域文章,其性能明显好于传统的首句抽取的摘要方法的性能。
其他文献
随着计算机技术、通信技术和网络技术的快速发展,数字家庭网络正逐步进入人们的日常生活。家庭网关作为家庭网络结构中的门户和管理者,直接决定了家庭网络的设计所能达到的性能
随着社会、经济的发展,无线通信技术和无线网络得到了越来越广泛的应用。近年来无线Ad-hoc网络和LEO/MEO卫星网络作为两种新兴的无线多跳网络,逐渐吸引了业界的注意力,成为研
CAN现场总线具有可靠性高,实时性好,同时又具有价格低、容易实现的优点,因此,得到了越来越广泛的应用。论文针对楼宇温湿度自动控制的要求,设计了基于CAN总线的温湿度监控系统。论
随着基于网络的计算机系统在我们的日常生活中起到越来越重要的作用,出于各种原因,这些系统成为我们敌人和罪犯的攻击对象。为了保障系统的安全,我们需要构建一个层次的网络
企业PC设施远程管理系统(Remote Management System for Enterprise PC Facilities)RMS是一套企业级的内部终端PC的管理系统,它以远程网络通信为基础,加上自动智能化的手段,
2006年,压缩感知(CS-Compressive Sensing)理论被提出,解决了数据采集编码端与信息处理解码端设备资源配置与其相应计算任务的复杂性不平衡的矛盾。现有压缩感知理论算法及相
从20世纪90年代开始,在国际网络界就进行了许多关于高性能的网络体系结构的研究。但由于这些研究都是基于传统的层次结构网络,所以虽然它能对网络的性能进行改善,但难以解决
随着网络的快速发展,网络安全问题日益突出,构筑一个全网安全的网络环境成为研究的一个热点。由信息产业部支持的研究课题“网络集成防御系统”,通过对网络中各节点主机的防
1976年Diffie和Hellman提出了公钥密码的概念,信息安全产业由于这一概念的引入得到了迅猛的发展。目前应用最广泛的公钥密码是基于大整数分解问题的RSA算法和基于离散对数问题
本文的主要工作就是研究自适应信息过滤中提高模板准确性的学习算法和过滤阈值优化的新方法。 给出了一种改进的自适应信息过滤模型,该模型将统计模型(向量空间模型)与概率