文本分割关键技术及其在多文档摘要中的应用研究

来源 :东北大学 | 被引量 : 10次 | 上传用户:a60414010299
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来,电子文本形式的信息大量涌现,使得互联网成为一个巨大的信息源。各类海量的文本信息在给人们带来便利的同时,也为信息产业带来了新的挑战。如何从信息海洋中迅速准确地获得用户感兴趣的信息,并以适当的形式呈现给用户,成为文本智能处理领域的研究热点。传统文本处理技术以篇章作为基本处理单元,隐性假设一篇文章只讨论一个主题。然而,篇幅较长的文章往往涉及多个不同的子主题,造成基于整篇文档的处理颗粒度难以满足用户的更高和更准确的要求。文本分割的研究就是在这样的背景下产生的。通过文本分割技术,能够自动识别出文本内部不同子主题的边界,将其线性分割开来。将语义段落(同一子主题的文本片段)作为基本处理单元,有益于改善文本处理技术的性能。文本分割需要解决两个关键问题:一是子主题边界的自动识别;二是语义段落数目的自动确定。本论文针对以上问题进行了研究,指出现有分割算法中存在的问题,并在深入分析文本结构特点的基础上,提出新的分割模型,取得一定的效果。最后,作者将所提出的文本分割模型应用于问题相关的多文档摘要任务中,实验结果表明子主题信息可以为摘要提供一些有价值的线索和范围,从而改善摘要的质量。本文的主要研究工作包括:1、提出了基于区域词汇密度的文本分割模型-MMD模型。本文对文本分割领域的著名算法-Dotplotting算法进行了理论分析,并指出Dotplotting用于评价分割点的区域密度函数存在两个问题:第一,评价函数不对称,导致前向扫描文本与后向扫描文本的分割结果不同的明显错误;第二,在确定新的语义段落边界时,评价函数未能充分考虑先前识别出的语义段落边界的制约。在此基础上,本文提出了MMD文本分割模型,弥补了Dotplotting模型存在的问题和不足。本文还利用语义段落长度因子来进一步提高分割性能。2、提出了一个基于多元判别分析的文本分割统计模型-MDA模型。采用多元判别分析方法定义了四种全局评价函数,实现对文本分割方式的全局评价。评价函数主要考虑了分割单元内距离、分割单元间距离和分割单元长度三个因素。其中假设分割单元内距离越小(强凝聚性)、分割单元间距离越大(强发散性)的分割方式是全局最佳的。最后根据全局分割评价结果,选择具有最高评价值的分割方式作为正确分割,从而自动判定子主题边界和确定语义段落的最佳数目。3、提出了基于动态规划的文本分割模型-MMS模型。在深入分析文本词汇分布特点和文本结构特点的基础上,定义了分割评价函数,通过动态规划算法搜索分割评价函数的全局最优解,同时自动确定最佳语义段落数目。评价函数综合考虑同一语义段落内部相似度、相邻语义段落之间相似度、语义段落长度和句子距离对相似度的影响等各种因素,来识别文档的子主题变化情况。与MDA模型相比,MMS模型的计算复杂度大大降低。MDA通过全搜索来确定最佳分割方式,是一个无序模型,计算复杂度为指数级别。而MMS模型采用动态规划方法作为搜索策略,属于有序模型。4、在本文提出的文本分割模型的基础上,面向问题相关的多文档摘要任务,构建了基于文本分割的多文档摘要系统-SEG_SUM系统。本文先用文本分割模型对每篇文档进行主题分割,然后对分割出的语义段落进行聚类,从而将不同文档之间讨论相同子主题的片段聚集在一起,得到同一主题下的多个语义段落簇,其中每个簇代表一个子主题。接着过滤掉与问题不相关的子主题,并按照子主题的重要程度排序,依次从重要子主题中选取句子形成摘要。由于摘要覆盖了与问题相关的多个子主题,并评价了子主题的重要程度,因此摘要能在贴合问题的特定关注点的基础上,覆盖更多的信息。同时也使得摘要尽量包含重要的信息。
其他文献
近期,泉州无线电管理处陆续接到泉州移动和泉州联通公司的干扰投诉,称泉州酒店和泉州市委组织部附近GSM手机不能正常拨打.对此,我处组织监测人员对GSM网络运行情况进行跟踪及
从2002年初开始,济南某些单位为了阻断移动通信信号进入某些特殊的场所,擅自设置使用无线电干扰设备,严重干扰了移动通信基站的正常工作,侵犯了移动通信运营商的合法权利.
目前由于寻呼台发射机互调干扰日趋严重,抑制互调干扰已到刻不容缓的时候,国家已明确规定寻呼发射机在使用中必须加装各种单向器.单向器抑制互调干扰的原理主要是:利用单向器
目的:探讨临床护理路径(CNP)在前列腺等离子电切术围术期的实施效果。方法:将60例前列腺良性增生患者按入院顺序分为对照组和试验组,每组30例,对照组按常规护理,试验组实施CNP护理。
近两年来,在.com和宽带"泡沫"负面效应的影响下,作为宽带移动通信关键一步的第三代移动通信IMT-2000(3G)是否也会出现"泡沫"问题,已成为信息通信业界的热门话题.的确,3G可以
在无线专网通信中,常有单频单工电台进行多机同台工作,所谓多机同台,是指多个单频单工电台,具有各自独立的天线,但安装在同一天线塔或同一地点的情况,例如机场塔台.