论文部分内容阅读
在科学研究发展的推动下,肿瘤类疾病的药物治疗进入针对个体基因特征的个性化治疗阶段。生物医学文献作为科学研究成果重要呈现方式之一,记录了大量有关肿瘤、药物和基因的数据,为深入研究和发现肿瘤个体化用药治疗方案提供重要的数据支持。然而,面对海量生物医学文献信息资源,从这类非结构化数据中自动地挖掘有价值的信息,尤其是肿瘤、基因和药物三者相互作用关系,需要借助于信息处理技术与方法实现。本研究采用多核机器学习方法从呈指数增长的海量生物医学文献中自动提取肿瘤—药物—基因三者之间的语义关联关系。多核机器学习的核函数选取方面,针对文献信息数据结构特点,分别从词形、语法和语义三方面选择向量空间核(Vector Space Kernel)和字符串核(String Kernel)作为词汇核(Lexical Kernel, LK),卷积树核(Tree Kernel)作为句法核(Syntax Kernel, SyK),以及基于WordNet的语义核(Semantic Kernel, SeK)。实验语料主要是从CTD数据库(The Comparative Toxicogenomics Database, http://ctdbase.org/)中的采集经过人工审编的肿瘤-药物、肿瘤-基因和药物-基因等相互作用关联关系数据及其来源于PubMed数据库文献信息。利用SVM训练多种方式组合核函数语义分类器并测试其分类性能。利用词汇核、句法核和语义核三者构成的线性组合核方法提取语义关系的性能优于其他核方法。构建基于多核机器学习的肿瘤—药物—基因语义关系提取模型,实现了自动提取肿瘤—药物、药物—基因和肿瘤—基因三种关系的具体语义关系类型。实验结果表明,肿瘤-药物关系的F-值为88.41%,肿瘤-基因关系的F-值为85.68%,以及药物-基因关系的F-值为71.31%,本研究的方法优于其他方法。在此基础上,本研究结合共现关联关系方法和多核学习语义关系提取模型,设计并实现了面向肿瘤个体化用药的语义关系提取原型系统。该系统可以从生物医学文献中自动识别和提取肿瘤—药物一基因三者间语义关系,并且支持用户对多个命名实体的多种组合查询和查询结果批量下载。