论文部分内容阅读
目的:
生物医学研究的快速发展以及电子型数据的出现,使人们陷入了数据的海洋之中,这成为人们探索生物医学实体之间关系的瓶颈。同时,在临床上,药物不良反应导致的死亡和用药不当导致的住院和门诊费急剧升高也成为临床安全合理用药面临的主要问题。本研究以Mubaid的基于统计的文本挖掘方法为基础,经过适当的调整后,将其应用于抽取阿司匹林和顺铂与疾病类实体之间的关系,验证Mubaid的研究方法是否能够应用于这一领域,并期望从生物医学文献中提取出有价值的药物的不良反应的信息,从而有效的预警药害事件,为临床安全合理用药提供技术参考,进而更好地维护公众健康。
方法:
本研究以Mubaid基于统计的文本挖掘方法为基础,利用理论值、实际值和Z评分等参数计算各种疾病类概念在药物副作用文献中出现的统计显著性,从而挖掘出有显著意义的疾病与药物副作用概念间的共现。具体做法为从PubMed数据库检索阿司匹林和顺铂的副作用的文献为研究组,分别统计文献集合中疾病类概念的出现频次,同时分别设立排除了研究主题内容(阿司匹林和顺铂)和排除了研究主题上位类主题词内容(水杨酸类、氯化合物、氮化合物和铂化合物)的文献集合作为基准组,用于比较疾病类概念在研究组和基准组中的差异程度。为了区分从不同字段抽取信息的效果,采用主题词字段分析和自然语言分析两条技术路线,即同一基准组,用基于文献频率和基于词汇频率两种参数计算方法,计算某个生物医学实体概念在研究组文献中出现的理论值、实际值和Z评分,比较该词在研究组文献和基准组文献中出现频次的差异。为了评价研究方法的抽取效果,对Z分值较高和只在研究组文献中出现的概念进行分析,判断哪些概念是权威网站,药典、教科书和药品说明书中已经认定的阿司匹林和顺铂的治疗应用以及能够导致的不良反应。对没有涵盖在内的疾病概念,通过阅读文献确定它们的药物作用。用受试者工作特征曲线分别比较阿司匹林和顺铂不同的基准组以及同一基准组不同参数计算方法在生物医学实体关系抽取结果上存在的差异。
结果:
阿司匹林两个基准组中新抽取的治疗应用和不良反应的发现率为36.6%和36.7%(48/131,47/128)。顺铂两个基准组中新关系的发现率均为51.1%(68/133,69/135)。卡方检验显示基准组挖掘结果之间没有差异;不同的参数计算方法对阿司匹林和顺铂的抽取结果存在差异,说明研究方法具有领域特异性。从各组只在研究组中出现的概念中抽取出新关系的比例分别为40.43%、47.83%、59.57%和56.82%。受试者工作特征曲线分析显示,阿司匹林研究组第一基准组结果优于第二基准组结果,基于文献频率的参数计算结果优于基于词汇频率的参数计算结果;顺铂两个基准组以及同一基准组不同参数计算方法之间的比较结果均不一致,但各比较组间均没有显著的统计差异。
结论:
本研究通过基于共现统计的文本挖掘方法抽取出了阿司匹林和顺铂与疾病类生物医学实体之间的关系,证实了Mubaid的挖掘方法能够用于这一领域,并且能够提取出权威网站、药典、教科书和药品说明书中没有涉及到的阿司匹林和顺铂的治疗应用以及能够导致的不良反应,得到了有价值的并能够用于指导临床安全合理用药的药物警戒信息。