基于多核学习的肿瘤—药物—基因语义关系提取

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学研究发展的推动下,肿瘤类疾病的药物治疗进入针对个体基因特征的个性化治疗阶段。生物医学文献作为科学研究成果重要呈现方式之一,记录了大量有关肿瘤、药物和基因的数据,为深入研究和发现肿瘤个体化用药治疗方案提供重要的数据支持。然而,面对海量生物医学文献信息资源,从这类非结构化数据中自动地挖掘有价值的信息,尤其是肿瘤、基因和药物三者相互作用关系,需要借助于信息处理技术与方法实现。本研究采用多核机器学习方法从呈指数增长的海量生物医学文献中自动提取肿瘤—药物—基因三者之间的语义关联关系。多核机器学习的核函数选取方面,针对文献信息数据结构特点,分别从词形、语法和语义三方面选择向量空间核(Vector Space Kernel)和字符串核(String Kernel)作为词汇核(Lexical Kernel, LK),卷积树核(Tree Kernel)作为句法核(Syntax Kernel, SyK),以及基于WordNet的语义核(Semantic Kernel, SeK)。实验语料主要是从CTD数据库(The Comparative Toxicogenomics Database, http://ctdbase.org/)中的采集经过人工审编的肿瘤-药物、肿瘤-基因和药物-基因等相互作用关联关系数据及其来源于PubMed数据库文献信息。利用SVM训练多种方式组合核函数语义分类器并测试其分类性能。利用词汇核、句法核和语义核三者构成的线性组合核方法提取语义关系的性能优于其他核方法。构建基于多核机器学习的肿瘤—药物—基因语义关系提取模型,实现了自动提取肿瘤—药物、药物—基因和肿瘤—基因三种关系的具体语义关系类型。实验结果表明,肿瘤-药物关系的F-值为88.41%,肿瘤-基因关系的F-值为85.68%,以及药物-基因关系的F-值为71.31%,本研究的方法优于其他方法。在此基础上,本研究结合共现关联关系方法和多核学习语义关系提取模型,设计并实现了面向肿瘤个体化用药的语义关系提取原型系统。该系统可以从生物医学文献中自动识别和提取肿瘤—药物一基因三者间语义关系,并且支持用户对多个命名实体的多种组合查询和查询结果批量下载。
其他文献
近50年来全球气候变化研究已经是当今自然科学重大课题之一,中国的区域响应也日渐引人关注。依据黑龙江、新疆、西藏三省区93个国家基准或基本气象站1961—2008年间的日气温
商水县境内应用广泛的地面灌溉技术,通过平整土地、改进沟畦灌规格和技术要素来提高水利用效率,小畦灌是商水县广大农村地区一项行之有效的田间节水灌溉技术,在商水县境内有
村镇银行作为新型农村金融组织的一支中坚力量,成长时间不长,发展尚不够充分,尤其是随着村镇银行试点的大范围铺开以及金融创新力度的不断加大,金融风险管理问题日益成为村镇
研究了预氧化一化学沉淀法对水中砷的去除效果及其影响因素。结果表明,原水砷质量浓度为5倍标准限值时,在NaClO预氧化条件下,投加8mg/L的聚合氯化铝可使砷去除率达到84%,且出水砷含
信息时代正在到来,农业经济信息对"三农"的影响日益加深,而信息的有效采用,关系到农业增效、农民增收、农村稳定.文章提出的采集信息时要注意的几个问题值得引起注意.
日前,中国新兴集团总经理于敦才收到了一封特殊的感谢信,这封来自中南海的感谢信,由中直管理局、中办秘书局和中南海电信局三家单位的领导亲自登门送来,以示他们对该集团圆满
期刊
培养外国留学生良好的汉语学习习惯是对外汉语教学中不容忽视的一部分。通过对东北师范大学国际汉学院留学生的学习习惯进行调查,将调查结果的数据具体整理分析,发现了留学生
在湖北蕨类植物区系中,属种数量最多的科有水龙骨科(Polypodiaceae)、鳞毛蕨科(Dryopteridaceae)和蹄盖蕨科(Athyriaceae)。并以鳞毛蕨属(Dryopteris)、耳蕨属(Polystichum)
目的:观察悬吊运动治疗(sling exercise therapy,SET)系统悬吊治疗对脑性瘫痪儿童智能发育的影响。方法:40例6岁以下的脑性瘫痪儿童纳入本研究。根据随机数字表法分为治疗组
目的:生物医学实体是包含在医学科研文献中出现的疾病、药物、基因等名称、术语或概念,即一种文献内含知识,了解其相互关联对于科学研究意义重大。然此类知识被大量淹没于文