基于组合学习和自训练的生物医学事件抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:pengpeng88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献数量的急剧增加,使得生物医学从业者在海量生物医学文献中快速地获取大量的感兴趣的信息变得困难。因此,快速有效地从海量无结构化的文本中抽取出便于管理、查询的结构化信息成为生物医学信息抽取的热点的研究课题。生物医学事件抽取属于生物医学信息抽取的范畴,旨在从分子层面在无结构化的文本信息中抽取出有蛋白质有关的结构化生物事件信息。在生物医学事件抽取的研究中,机器学习的方法得到了广泛的应用。本文在研究过程中主要利用了机器学习的方法对生物医学事件进行抽取,涉及到组合学习,模型自训练以及核方法的机器学习方法。在事件的处理流程上采用了常用的文本预处理、事件触发词检测、事件元素识别以及整体后处理的步骤。本文在生物医学事件触发词检测的阶段采用了基于不同决策规则的学习器进行组合学习、使用模型自训练的方法在触发词检测阶段引入了未标注语料实现半监督学习。在触发词的检测过程中,采用了建立触发词字典来判断文档中词是否为候选触发词,对所选候选触发词进行特征提取进行分类任务,确定候选词是否为触发词并指定相应的触发词类型。在事件元素检测的阶段,构造触发词和蛋白质关系对,借鉴蛋白质交互关系抽取的方法对触发词蛋白质对之间的关系进行检测。根据事件的定义类型将事件分为简单事件和复杂事件分别进行元素的检测。在简单事件中直接鉴定触发词蛋白质的关系,在复杂事件中采用了先鉴定是否存在关系再鉴定存在哪一种关系的方法。最终采用核函数的方法对触发词蛋白质对进行关系检测,来确定事件的元素。本文是在BioNLP’09和BioNLP’ ll共享任务提供的公开的语料集上进行训练和测试的,同时实验过程中采用的未标注语料来源于PubMed中的摘要文档。利用本文的方法在采用的语料集上进行模型建立和验证,结果表明本文采用的方法对事件抽取系统的性能有所改善,取得了不错的抽取效果。
其他文献
目前,每年生物医学文献的数量正在呈指数的方式增长,科研人员为了得到好的研究成果,需要查找阅读大量的文献,但如此大规模的文献,给科研人员带来了巨大的困难。同时,现代科学
集成学习的主要思想是融合多个分类学习算法的分类性能来提高整体分类算法的泛化能力。构建一个具有多样性/差异度大的弱分类学习算法集合是集成学习取得高泛化能力的关键。对
相比传统网络,泛在网中设备数量众多,种类繁杂,且许多数据源网络长期处于无人值守的工作状态。泛在设备的存储和计算能力相比传统网络也更加有限,当前,大多数数据源网络之间
数据统计显示,意外事故发生时,当事人几分钟之内的死亡率为50%;几小时内的死亡率为30%;受伤之后,在几星期内死亡的占20%。而且,立即死亡的当事人,绝大部分丧生于事故现场。可见
人脸识别凭借其友好、便捷、隐蔽性等优势成为生物识别领域的热点研究课题之一。经过近50年的发展,基于二维图像的人脸识别技术日趋成熟,但受限于二维图像的数据形式,二维人
集电力电子和智能控制于一体的无刷直流电机(Brushless DC Motor,BLDCM),得益于其电能转化效率高、使用寿命长及维护维修方便的优势,已广泛应用于工业控制、交通运输、家用电气
三维网格模型在计算机图形学中具有主导地位。它广泛应用于电影、游戏、计算机辅助设计、模拟仿真、艺术与历史、医药等众多领域。基于多边形网格模型的数字几何处理技术不断
随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息
现代数字信号处理器(DSP)一般采取超长指令字或是超标量来实现指令级并行。超长指令字(VLIW)数字信号处理器将并行任务的识别和调度交给了编译器,因此在利用VLIW DSP的时候需
在通信技术迅速发展的今天,手机已经成为人们工作和生活当中不可或缺的联系工具。手机给人们带来众多便利的同时,也常常被不法分子利用作为犯罪工具,司法机关急需采取有效的技术