呼吸病学标准医学术语在电子病历中的使用情况调研

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:zhaoxin1987212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:调研全国科学技术名词审定委员会发布的呼吸病学名词在电子病历中的使用情况。通过观察疾病、体征或症状类标准医学术语及其关联的同义词在呼吸疾病电子病历中的分布,发现标准医学术语在使用频次上高于非标准医学术语,但整体而言,同一医学概念在不同来源的病历中表达多样,标准化程度不高。此外,《呼吸病学名词》收录的标准医学术语及其同义词对电子病历中所使用的医学术语覆盖度偏低,需要扩充和完善。
  关键词:标准医学术语;电子病历;术语覆盖度;术语标准化;术语挖掘
  中图分类号:R4;H083  文献标识码:A  DOI:10.12339/j.issn.1673-8578.2021.04.008
  An Investigation into the Practical Use of Respiratory Disease Standard Medical Terms in Electronic Health Record//SHANG Tao,CHENG Yao,CHEN Luming,DENG Lizong,JIANG Taijiao
  Abstract: The application of standard respiratory disease terms constructed by China National Committee for Terms in Sciences and Technologies was investigated in this research. The usage frequency of standard disease and symptom terms of respiratory disease is much higher than synonymous of standard terms. Overall, the standard terms could not descript practical clinical problems completely in electronic health record as of the diversity of medical concepts. Otherwise, standard terms collected by Terms of Respiratory Disease also could not cover all synonymous in electronic health record. Thus, the continuous development is necessary to expand the coverage of respiratory disease terms in real world applications.
  Keywords: standard medical terms;electronic health record;coverage of medical terms;terminology standardization;terms mining
  收稿日期:2021-06-15  修回日期:2021-09-05
  基金项目:全国科学技术名词审定委员会事务中心一般项目“医学名词审定中的同义词整理与分析”(SWZX2018003),“科技名词社会使用状况调查”(SWZX202003);广州实验室应急攻关项目“新冠与其他12项呼吸道病原体核酸检测技术和设备”(EKPG21-12)
  引言
  以临床电子病历为代表的真实世界数据(real world data)蕴含了丰富的患者诊疗信息,若能对这些诊疗信息加以有效利用,将极大地推动我国医疗健康大数据应用的发展[1]。然而,由于不同机构、不同医生的用语习惯不同,电子病歷中的诊疗信息存在着用语不规范、不统一的问题,这为医疗健康大数据的整合和利用带来了极大的障碍[2]。为规范我国临床医学术语的使用,以国家卫生健康委员会(简称“卫健委”)、全国科学技术名词审定委员会(简称“名词委”)为代表的国家机构颁布了一系列标准医学术语①,引导中文医学术语的规范表达,推动了我国医学术语的标准化进程[3-4]。
  调研已发布的标准医学术语在真实世界数据中的使用情况是一项十分重要的工作[5]。这一工作通常可以从两方面展开:一是调研真实世界数据使用标准医学术语的情况;二是调研标准医学术语对真实世界数据中所使用术语的覆盖度。前者关注的是真实世界数据所使用医学术语的标准化程度,后者关注的是标准医学术语描述真实世界数据的完备程度。
  国内外学者均非常重视调研标准医学术语在真实世界数据中的使用情况。例如,来自梅奥诊所的研究者[5]从电子病历中搜集了4996个描述临床问题的医学术语,发现国际卫生术语标准制定组织制定的临床医学系统术语 (SNOMED-CT)能覆盖其中92.3%的临床问题术语。来自四川大学华西医院的研究者[6]通过对比中文人类表型标准用语(CHPO)和从中文电子病历中获取的表型术语,发现电子病历中使用的术语口语化、随意化现象严重,同标准医学术语集之间存在着巨大差异。中国医学科学院的研究者[7]系统汇集了卫健委、名词委发布的857 193个标准医学术语,并统计了标准医学术语对实际使用于临床指南、电子病历中的69 865个医学术语的覆盖度,发现中文标准医学术语资源对于常见术语的覆盖度较高(74.3%),但对不常见术语的覆盖度偏低(26.8%)。
  名词委历来都很重视标准医学术语的审定与应用,不仅发布了呼吸病学、老年医学等18个专科的标准医学术语, 还发布了一系列专科医学术语审定名词与非规范名词对照表[8]。然而,对于目前真实世界数据中对已发布的专科标准医学术语的使用情况和专科标准医学术语对真实世界数据中使用术语的覆盖度尚缺少细致深入的研究。在本研究中,我们拟以名词委2018年发布的《呼吸病学名词》为切入点,调研《呼吸病学名词》中有关疾病、体征、症状类标准医学术语在电子病历中的使用情况,以期充实和完善我国的呼吸病学标准医学术语。   1 研究方法
  1.1 研究设计
  本研究的总体设计如图1所示:首先,我们搜集并整理了名词委《呼吸病学名词》中疾病、体征或症状类标准医学术语;随后,我们通过汇集《呼吸病学名词》《中文医学主题词表》(CMeSH,“万方医学网”发布)、“39健康网”等医学健康网站收录的同义词资源,整理了与标准医学术语存在同义关联的非标准医学术语;我们还通过术语挖掘的方法,从实际电子病历语料中发掘了与标准医学术语存在同义关联的非标准医学术语;最后,我们根据整理获得的标准医学术语和非标准医学术语集,对它们在实际电子病历语料中的使用情况展开调研。详述如下。
  1.2 搜集并整理《呼吸病学名词》中疾病、体征或症状标准医学术语
  首先,我们搜集并整理了名词委2018年发布的《呼吸病学名词》中547个疾病、体征或症状类标准医学术语,其中,疾病类标准医学术语数目为428个,体征或症状类标准医学术语数目为119个。我们主要出于两方面考虑疾病、体征或症状类的术语:首先,疾病、体征或症状是电子病历中最重要的一类诊疗信息;其次,我们前期积累了大量的疾病、体征或症状类同义词资源,可从中发掘出与标准医学术语具有同义关联的非标准医学术语,进而展开更深入的分析。
  1.3 搜集并整理以呼吸系统疾病为主要诊断的电子病历
  为评估呼吸病学标准医学术语在电子病历数据中的使用情况,我们通过“爱爱医”和“医脉通”网站的典型病例栏目搜集并整理了5383份以呼吸系统疾病为主要诊断的中文电子病历。“爱爱医”和“医脉通”的典型病例均来自不同医院、不同医生的临床记录,其中的医学术语表达具有多样性,因此非常适合作为本文的研究语料。
  互联网电子病历资源网站所发布的电子病历数据通常包含各个疾病种类。为了配合调研呼吸病学标准术语使用情况的目的,我们设计了如下规则对所获的电子病历数据进行筛选。
  (1)对于如“爱爱医”和“大专家”等带有疾病诊断标签的病历资源,以呼吸病学名词为种子词,筛选诊断结果为呼吸病学相关疾病的电子病历数据作为本研究所使用数据集的重要组成之一,共筛选出4321份电子病历。
  (2)对于“医学慕课”和“医脉通”等无任何标签的病历资源,以呼吸病学名词为关键术语,筛选出病历文本内容中包含10个以上呼吸病学相关症状或疾病术语的电子病历,共筛选出1063份电子病历。由于这部分数据无确定的诊断标签用于判断其是否为呼吸病学相关病历,我们采用人工的方法,确认了这1063份电子病历数据均为呼吸病学相关数据。
  1.4 搜集并整理与标准医学术语存在同义关联的非标准医学术语
  在本研究中,我们将名词委发布的《呼吸病学名词》中的疾病、体征或症状类术语作为标准医学术语,将标准医学术语对应的同义词称作非标准术语。我们通过以下三个渠道对标准医学术语的同义词进行了扩充:
  (1)来自《呼吸病学名词》的同义词资源。在名词委发布的《呼吸病学名词》中,除了给出标准医学术语(如“干性咳嗽”),还会给出标准医学术语的同义词(如“干咳”)。我们共搜集了114个疾病、体征或症状类标准医学术语的同义词。
  (2)来自“万方医学网”发布的《中文医学主题词表》和医学健康网站(“寻医问药”“39健康网”等)的同义词资源。《中文医学主题词表》和“39健康网”“99健康网”等医学健康网站同样收录了大量的医学术语同义词资源。通过这一系列术语资源,我们为来自《呼吸病学名词》的标准医学术语扩充了969个同义词。
  (3)通过运用自动术语挖掘和标准化映射技术发现的同义词资源。近年来,以大规模语料为基础,进行术语挖掘或新词发现的自然语言处理技术愈发成熟,以自动短语挖掘方法(AutoPhrase)[9]为例,它以维基百科中的高质量词条为种子词条,采用基于词性的词分割方法,基于统计语言模型的词语片段打分模型实现无监督地面向大语料的术语挖掘。通过运用AutoPhrase并辅以人工判断,我们从本研究整理的5383份呼吸系统疾病电子病历中识别了3442条描述呼吸系统疾病、体征或症状的医学术语。挖掘结果如表1所示。
  更进一步,我们运用百度翻译、有道翻译、腾讯翻译君将中文医学术语翻译成英文,再借助MetaMap[10]将英文医学术语映射到统一医学语言系统(UMLS)[11],获取中文医学术语在UMLS体系中的概念编码。若两个字面不同的中文医学术语在UMLS体系中具有相同的概念编码,那么它们就可判定为同义词。例如,来自《呼吸病学名词》中的标准医学术语“肺念珠菌病”(pulmonary candidiasis)和从病历中挖掘得到的术语“念珠菌肺炎”(candida pneumonia)具有相同的UMLS概念編码“C0153251”。通过这种方法,我们为来自《呼吸病学名词》的标准医学术语扩充了522个同义词。
  除了通过UMLS对中文医学术语进行同义关联外,我们还通过计算中文术语间的字形相似度和语义相似度[12],寻求挖掘得到的非标准医学术语和标准医学术语之间是否存在同义关系。通过这种方法,结合多轮人工确认,我们为来自《呼吸病学名词》的标准医学术语扩充了273个同义词。
  最终,我们搜集并整理了与《呼吸病学名词》中的547个疾病、体征或症状类标准医学术语相关的同义词或非标准医学术语共1878个(表2)。
  2 研究结果
  2.1 标准医学术语与非标准医学术语在电子病历中的使用情况
  我们首先调研了来自《呼吸病学名词》中547个标准医学术语和1878个非标准医学术语在5383份呼吸系统电子病历中的频次分布情况。从图2A可见,标准医学术语和非标准医学术语在本研究使用的电子病历语料中分别出现了51 881次和26 386次。无论对于疾病类还是体征或症状类术语而言,标准医学术语的出现频次都高于非标准医学术语。   由于我们整理的非标准医学术语都是标准医学术语的同义词,即对同一临床概念的不同描述,因此我们还从概念层面分析了某一医学概念在电子病历语料中是否更倾向于使用标准医学术语。我们首先筛选了242个具有同义词且在电子病历语料中出现10次以上的医学概念。统计发现,使用标准医学术语的概念占比为52.89% (128/242),使用非标准医学术语的概念占比为47.11% (114/242) (图2B)。
  我们进一步统计了同一医学概念使用标准医学术语占该概念总出现次数的比例分布,发现该分布呈U型,即完全使用标准医学术语或完全使用非标准医学术语的医学概念出现较多(图2C)。典型的例子是“盗汗”和“胸痛”,大部分病历使用了标准医学术语,而不是其同义词“寝汗”和“胸部疼痛”。而对于“干性咳嗽”和“血性痰”,大部分病历使用的是其同义词,如“干咳”和“痰中带血”。从图2C也可以看出,电子病历中对同一医学概念的表达是多样的,整体而言,术语标准化程度不高。
  2.2 标准医学术语对电子病历中使用医学术语的覆盖度分析
  为调研标准医学术语对电子病历中使用医学术语的覆盖度,我们使用自动术语挖掘并辅以人工判断的方法,从5383份呼吸系统电子病历中挖掘出3442条描述呼吸系统疾病、体征或症状的医学术语。
  这3442条来自电子病历中的医学术语中,有289条可被来自《呼吸病学名词》中标准医学术语所覆盖,有40条可被来自《呼吸病学名词》的同义词所覆盖。在其余的医学术语中:有173条可利用来自CMeSH和医学健康网站的同义词资源映射到《呼吸病学名词》收录的标准化医学术语上;进一步,有522条通过基于UMLS标准化的方法映射到《呼吸病学名词》收录的标准化医学术语上;此外,有273条可通过利用字形相似度和语义相似度相结合的术语映射方法映射到《呼吸病学名词》收录的标准化医学术语上。总体而言,《呼吸病学名词》中的医学概念对电子病历中所使用的医学术语的覆盖度是37.68% (1297/3442) (表3)。
  我们进一步分析了未被《呼吸病学名词》收录的非标准医学术语的特征。通过语义关联和字形关联算法,推荐最为接近的标准医学术语。通过对这些术语标准化映射的人工确认,我们发现这些术语往往是《呼吸病学名词》收录的标准医学术语的子结点。如:“支气管腺样囊性癌”属于“腺样囊性癌”,“干酪样肺炎”属于“肺结核”等。从概念的角度来看,这些未被收录的术语所表示的概念往往是《呼吸病学名词》所收录的术语概念的子概念,在临床应用中可进行更为精细的描述与表征。
  3 结语
  在本研究中,我们调研了名词委发布的呼吸病学标准医学术语在电子病历中的使用情况。尽管在呼吸疾病电子病历中,标准医学术语的使用频次高于非标准医学术语,但从概念层面上看,术语的标准化程度仍然不高,这也是当前发展医疗健康大数据应用面临极大挑战的重要原因之一[2]。
  由于术语标准化程度不高,同一概念的临床描述多种多样,因此搜集标准医学术语的同义词成为标准术语集合未来发展的要点之一[6]。从本文的术语覆盖度研究中可以看出,如果只考虑来自《呼吸病学名词》中的术语,它在呼吸疾病电子病历中所使用的术语的覆盖度仅为9.56% (329/3442); 但当通过利用现有中英文术语资源、术语挖掘和标准化映射方法扩充同义词后,在呼吸疾病电子病历中所使用的术语的覆盖度可达37.68% (1297/3442)。由此可见,在临床应用中,同一概念下医学术语的使用具有多样性,在使用过程中不仅有标准术语集合所收录的表达形式,同时也存在各种符合临床使用习惯的同义词表述形式。此外,在临床实践中,存在倾向于使用非标准医学术语的概念,其占比为47.11% (114/242)。这说明部分标准术语集合所收录的术语由于表述方式较复杂,或者不符合汉语、口语习惯等各种因素,临床使用频次较低。以上这些结果提示我们在未来的术语审定工作中,需要更充分地考虑不同渠道尤其是来自临床实践的同义词资源,以提升标准医学术语对临床实践的覆盖度[7]。与此同时,标准术语所收录的内容需要更为贴近临床实践及中文医学使用场景下的语言习惯,尽可能提升标准术语对临床应用术语的收录水平,为统一临床术语的使用提供可能。
  从本研究对未被收录的呼吸病学相关概念的分析情况来看,未被收录的这些概念多为已收录术语概念的子概念,用于表述更为精细的临床实体和信息。因此在中文标准化术语的制定过程中,除需要更充分考虑临床习惯用语的同时,也需要考虑收录更为精细的临床概念相关术语,并在此基础之上构建起更为系统的概念间的从属、修饰关系,使得标准术语系统对临床应用场景形成更为全面的覆盖,从而促进临床实践中术语的标准化。
  本研究的一個不足之处是我们只考虑了呼吸病学疾病、体征或症状类术语,而未对手术、药物等术语进行同样系统而全面的调研,我们期望在未来的工作中弥补这一不足。同时,尽管本研究针对的是呼吸病学术语,但调研所使用的方法同样适用于其他专科疾病术语。我们也期望在未来的工作中能进一步调研名词委发布的其他专科标准医学术语在真实世界数据中的使用情况,为推动我国的医学术语标准化事业做出贡献。
  注释
  ① 本文将全国科学技术名词审定委员会审定、公布的医学类规范名词与其他国家机构作为标准发布的医学术语,统称为“标准医学术语”。
  参考文献
  [1] 宋扬, 贾王平, 韩珂,等. 健康医疗大数据的应用及其挑战[J]. 中国慢性病预防与控制,2021,29(3):220-223.
  [2] 张世红, 史森, 杨小冉. 健康医疗大数据应用面临的挑战及策略探讨[J]. 中国卫生信息管理杂志, 2018, 15(6):629-632,658.
  [3] 魏星. 全国科技名词委公布与预公布名词[J]. 中国科技术语, 2018,20(4):50.   [4] 杨威. 我国医学名词现状及发展分析[J]. 中国卫生标准管理, 2018, 9(1):1-4.
  [5] Evaluation of the content coverage of SNOMED CT: ability of SNOMED clinical terms to represent clinical problem lists[J]. Mayo Clinic Proceedings, 2006, 81(6):741-748.
  [6] 张睿,陈薇,杨豪,等.医学术语集的中文同义词富集方案[J].中华医学图书情报杂志,2021,30(2):25-32.
  [7] 程瑶,蒋太交,邓立宗,等. 中文标准医学术语集对实际应用覆盖度研究[J]. 中国卫生信息管理杂志, 2020, 17(5):55-59,90.
  [8] 全国科技名词审定委员会. 审定名词与非规范名词对照(心血管病学)[J]. 中国综合临床, 2000, 16(2):108,111,128.
  [9] SHANG Jingbo, LIU Jialu, JIANG Meng, et al. Automated Phrase Mining from Massive Text Corpora[J]. IEEE Transactions on Knowledge & Data Engineering, 2018.
  [10] DEMNER-FUSHMAN D, ROGERS W J, ARONSON A R. MetaMap Lite: an evaluation of a new Java implementation of MetaMap[J]. Journal of the American Medical Informatics Association Jamia, 2017(4):841.
  [11] BODENREIDER O.The Unified Medical Language System(UMLS):integrating biomedical terminology[J].Nucleic Acids Research,2004(suppl_1):267-270.
  [12] 張晨童,张佳影,张知行,等. 融合常用语的大规模疾病术语图谱构建[J]. 计算机研究与发展, 2020, 57(11):219-229.
  作者简介:商涛(1979—),男,博士,2011年毕业于中国医学科学院基础医学研究所/北京协和医学院基础学院细胞生物学专业,主要研究方向为医学术语审定、医学数据规范化、国际疾病分类本地化。在医学术语规范化方面进行了深入的研究。此外,在规范化医学术语与医学信息学的交叉融合进行了研究。2013年7月在德国科隆大学进行学术交流活动,现任全国科学技术名词审定委员会事务中心医学专项办公室主管,主持全国科学技术名词审定委员会事务中心基金项目2项。通信方式:shangt@cnterm.cn。
  通讯作者:蒋太交 (1970—),男,博士,中国医学科学院北京协和医学院长聘教授、博士生导师,国家杰出青年基金获得者。多年从事生物信息学、医学信息学领域的研究。课题组经过多年积累,发表多篇关于生物医学大数据处理的研究论文。同时在医学文本自然语言处理、疾病表型、医学本体、知识图谱方面进行了非常深入的研究。此外,在解决重大疾病科学问题中对生物信息学、医学信息学等进行多学科、多方法的交叉融合也是课题组重要的研究方向。通信方式:taijiao@ibms.pumc.edu.cn。
其他文献
随着全固态10kW调幅中波广播发射机在中波广播发射台的普及,在发射台的日常检修和维护中,经常会遇到推动级部分的故障,且因为推动部分所涉及到的电路较为复杂,工作电压比较多,因此经常成为维修工作中的难点。本文以循天XAM-10A型全固态10kW中波广播发射机为例,结合笔者在学习和工作中的收获和心得,讲解推动合成母板的调整步骤和注意事项,涉及预推动调整、射频推动调整、欠推动和过推动调整等步骤。
又是一年春节到,爆竹声中,已成为世界著名乐高设计师的我,乘坐着自己设计的一架乐高全自动飞机,回到了魂牵梦萦二十年的家乡。一下飞机,我深吸一口气。啊,真甜哪!原来机场建在果园上方,只见一棵棵挂满果实的苹果树种在大片大片的红土中,几个圆头圆脑的机器人正纯手工捕捉树上的虫子。
今年暑假,我和小伙伴们相约来到千岛湖,开启了一段美好的旅程。其中,令我印象最深刻的,便是8月12日晚上那场浪漫的英仙座流星雨。那日,我们尽兴地玩了一整天,准备各自回房睡觉了。正当我准备拉窗帘时,不禁被迷住了:今晚的星空真美啊!我连忙冲出房间,跑到阳台,仰起头,痴痴地望着星空:整个天空就像一块无边无际的黑色幕布,繁星点点布满其中。
老师告诉我们:我们的家乡,我们脚下的这片土地,我们每天学习的校园,是红军曾经战斗过的地方。我们应该爱这片土地,为在这里快乐地学习和生活感到骄傲和自豪。坐在宽敞明亮的教室里,静静地聆听着老师给我们讲述红军的故事。20世纪30年代,红军转战江山的三年间,积极发动群众,打击土豪劣绅,屡建战功:奇袭塘源口、夜袭“夫人殿”、奇袭白石、袭击长台区公所……一段段英勇的战斗故事刻进了我的脑海。
作为金融市场新型主体,金融科技公司直接或间接参与金融市场过程中存在着信用风险、系统性风险、信息安全风险和监管套利风险等各类风险,需要予以有效监管.当前我国金融科技公司的监管体系由一行两会主导的业务监管和网信办、工信部主导的技术监管构成,但监管漏洞和监管重叠的问题比较突出.为促进和规范金融科技公司的发展,需要完善业务与技术相协调的监管体系,明确包容监管、原则监管和风险底线等监管原则,从市场准入、业务规范、风险控制和内部治理等层面建立监管规范,创新技术监管、穿透监管和合作监管等方法,尽快制定《金融科技公司监督
为了适应不同的运动环境,设计了一款多自由度智能踝关节假肢。假肢具有球形踝关节结构,在运动过程中能实现矢状面和冠状面的自由运动,与配套控制系统共同作用,增加使用者的运动灵活性和稳定性,减少运动过程中的能量损耗,及时调整异常步态、步行速度、步幅等,辅助下肢截肢者自由行走。
摘 要:研究关于环境科学的多语言术语知识库EcoLexicon,总结其对于术语学研究及术语知识库构建的启示。通过查阅相关文献及资料,针对EcoLexicon网站主要功能和实际应用进行分析,梳理EcoLexicon术语库的理论背景和结构框架。总结出对术语学研究及术语知识库构建的四点启示:多语言、领域性、可视化、互操作性。  关键词:EcoLexicon;术语学;术语知识库;启示  中图分类号:N04
期刊
分析了R、L、C串联电路发生谐振的原理和发生谐振式电路的特性,以及串联谐振系统中主要元件的作用及要求。根据一些典型的电气设备的试验要求介绍了串联谐振试验的目的及基本原理,试验接线和方法,试验设备的选型、各个参数的计算方法和其主要特点。在相关试验规程规定的耐压时间内被试设备的绝缘介质未被击穿、电流表指针无剧烈摆动,未发生异常电压下降和异常放电声响;有机绝缘介质未发生温度上升则认耐压试验合格,否则应立即检查并处理正常后,再次进行耐压试验。
摘 要:刘伯承元帅是中国人民解放军军语理论和实践的开拓者、领路人,也是军语翻译家。他在军语翻译理论方面提出了许多独到见解,在军语翻译实践方面做出了很多重要贡献。从中得到的启示是:军语翻译要紧密结合军队作战和建设的现实需要,坚定把握正确的政治方向,始终坚持准确严谨的质量要求。  关键词:刘伯承;军语翻译;理论建树;实践贡献;启示  中图分类号:E319;H315.9 文献标识码:A DOI:10.1