文本自动摘要和信息抽取方法及其应用研究

被引量 : 17次 | 上传用户:S82415127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本数据特别是网页信息的持续激增,如何快速、自动地抽取海量文本中蕴含的主要或重要信息,已成为人们关心的一个热点研究问题,由此刺激了面向文本的信息抽取技术的迅速发展。文本摘要技术能够抽取文本的篇章结构及主要信息,自动生成单篇文档或多篇文档的摘要,可以看成是信息抽取技术的一种。而通常意义上的信息抽取技术则主要是抽取文本中蕴含的用户所需的特定重要信息。本文面向循证医学(EBM)网页并结合其它类型的训练文本,重点研究文本的自动摘要和信息抽取方法,主要针对信息抽取结果不理想、主题划分不明确、段落聚类算法对初始值敏感、聚类数目需要人工设定等问题,提出一系列新颖的研究方法和模型。(1)提出一种段落特征与隐马尔可夫模型相结合的信息抽取方法。该方法与其它信息抽取方法的不同之处在于以段落而不是单词为研究对象。网页上的信息经过预处理以后,以段落为单位,保存成文本序列,每一个段落要转换成特定的字符串,这些字符串做为隐马尔可夫模型中的可观察变量。实验表明,无论是准确率还是召回率,以段落为观察序列的信息抽取结果都要优于以单词为观察序列的信息抽取结果。(2)对文档进行主题划分,为摘要的生成做准备。主题划分的过程是将文本中的段落表示成向量空间模型,利用互信息计算连续段落的关联程度,将关联程度较弱的段落作为划分的边界。考虑到算法中人工定义参数会对划分结果造成一定程度的不利影响,所以本文采用遗传算法对主题划分过程中出现的参数阈值进行优化。实验表明,互信息与遗传算法相结合的主题划分方法在准确率上取得了较好的结果。(3)对单词-文档谱聚类方法的基本步骤进行分析,找出其对初始值敏感的根本原因,提出一种基于模糊K-调和均值的单词-文档谱聚类方法。该方法包括两个方面,一是从矩阵相似的角度对谱聚类中的Laplacian矩阵进行处理,使其满足对初始值不敏感的条件。二是通过加入模糊的概念,用模糊K-调和均值算法代替K-均值算法,使聚类结果对初始值不敏感。实验表明,基于模糊K-调和均值的单词-文档谱聚类方法不仅使聚类结果对初始值不敏感,而且在一定程度上改进了数据的聚类结果。(4)利用形态学的方法确定聚类数目,并对单词-文档谱聚类方法进行改进。确定聚类数目主要分三个步骤,第一步将单词-文档谱聚类方法中产生的矩阵转换成VAT灰度图,第二步利用灰度形态学、图像二值化、距离转换等图像处理技术对VAT灰度图进行过滤,第三步对过滤后的VAT灰度图建立信号图,并进行平滑处理,通过平滑后的信号图的波峰波谷数目确定文档集的聚类数目。实验表明,该方法能够提高单词-文档谱聚类方法的聚类效果。(5)在LDA主题模型的基础上,提出了基于主题融合的多文档自动摘要算法Titled-LDA。考虑到文档的标题信息对摘要形成有很强的指示作用,因此为每篇文档分别建立标题和正文的主题模型,并对两个模型进行融合。融合过程中,根据两种形态的信息熵,进行自适应不对称学习,从而对不同形态的主题分布进行加权处理,融合后的模型适当地关联了标题和正文的信息,因此有助于摘要质量的提高。实验表明,Titled-LDA方法在DUC标准数据集上取得了较好的效果。
其他文献
当前,居民幸福感指数已成为衡量政府绩效与公共服务的重要指标。文章在分析社区服务居民幸福感现状的基础上,引入公众价值感知的理论视角,提出重塑社区公共文化艺术服务的居
本文研究了宁夏10种主要土壤对磷的等温吸附特征,结果表明,宁夏主要土壤的等温吸附曲线与Langmuir等温吸附方程吻合。最大吸附磷量(Xmax)介于99.0~666.6μg/g之间,与土壤物理
<正>以政改与"真普选"为主要诉求的香港"占中"抗议活动的爆发及延续,是香港政治发展的一个重要分水岭。香港政治格局从原先的泛民主派与建制派的权力结构,转变为更大范围以黄
液化天然气作为一种清洁能源,越来越受到人们的欢迎,而液化天然气技术也已成为天然气工业中一个极其重要的部分。总结了几种LNG液化流程,包括级联式液化流程、混合制冷剂液化
<正>"一般认为,电影学是艺术学的一个分支,其范畴包括电影发展过程、电影审美特性、电影创作规律、电影作品分类及其社会作用与美学效应等。"至少有三本著作这样定义"电影学"
自2003年开始在中国实施的新型农村社会养老保险(以下简称新农保)试点是国务院办公厅按照党的十七大和十七届三中全会的精神,并结合之前几十年的广泛探索,总结经验教训之后开
目的观察手术结束前静脉给予氯胺酮与咪达唑仑对行斜视矫正术的患儿苏醒期躁动的影响。方法将180例接受全身麻醉斜视矫正术的患儿(1~6岁)随机分为三组,各60例,术中均接受8%七
目的探讨在关节镜辅助下治疗Ⅴ、Ⅵ型胫骨平台骨折并前交叉韧带(ACL)撕脱骨折的临床疗效。方法选择Ⅴ、Ⅵ型胫骨平台骨折并ACL损伤患者12例,Schatzker分型为Ⅴ型9例、Ⅵ型3例
广播电视发射站由于其接收和发送无线广播电视信号的需要,往往都修建在当地海拔最高的山顶位置。另外因为其自身结构的特殊性(如高达几十米的信号发射塔,以及发射站内的各种电子
通过对英国、德国、新加坡和美国不同医疗保险模式的国家日间手术开展情况的比较研究,探讨不同医疗保险模式与日间手术推进之间的关系,从日间手术理念的创新、统一的日间手术