面向医疗数据的实体分析与自动编码技术研究与应用

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:zxi666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国内电子病历系统的普及,医疗文本的积累也越来越多。医疗文本中往往包含大量患者的重要诊疗信息,如疾病名称、症状、诊疗记录等。有效分析这些数据,对于病情分析、疾病预防等后续的相关工作具有重要作用。因此,对电子病历的挖掘和分析在数据处理领域越来越受关注。电子病历中的信息多以文本形式表示,而且在病历撰写时由于医生的个人习惯等原因,对于疾病名称、症状描述等术语使用并不统一,导致后续对接医疗费用支付系统、医学数据统计等工作时出现误差。因此将临床文本数据映射到标准的术语库,用编码表示文本具有重要意义。本文对医疗领域数据的实体分析和自动编码进行研究。主要工作如下:1)提出了一种基于Att-Bi-LSTM-CRF的临床文本实体识别方法。该方法将中文笔画n-gram信息词向量(cw2vec)与基于字符向量的双向长短期记忆(Bi-LSTM)网络结合使用,通过注意力机制决定哪些信息更重要,为了使预测标签更具合理性,采用条件随机场(CRF)实现标注。2)提出了一种基于卷积神经网络和K-means的短文本聚类方法。由于疾病文本数据的稀疏性,通过外部ICD-10术语库扩充短文本数据,采用word2vec学习扩充短文本表示,再利用卷积神经网络学习深层特征表示,最后通过传统K-means聚类算法来实现聚类。3)提出了一种基于深度学习和实例的疾病自动编码方法。该方法融合多种方法(深度学习、相似度计算和实例对照表)实现编码。深度学习从训练数据中学习文本与编码间的映射关系,实现编码预测;采用基于TF-IDF的相似度计算,筛选出与疾病满足一定相似度的编码;最后采用实例对照表解决疑难编码。实验证明,本文提出的方法是有效的。针对医疗数据中的疾病名称或诊断描述,基于深度学习模型的实体识别方法的准确率达到82%左右;疾病短文本的扩充、卷积神经网络和传统K-means算法一定程度上可以很好地完成疾病短文本聚类;深度学习方法解决了医院诊断中使用最频繁的编码,相似度计算和实例对照表解决了医院中不常出现和难于判断的编码,通过结合深度学习和实例的方法,尽可能多的覆盖了编码种类,且提高了疾病自动编码的准确率。最后,针对本文的不足及下一步工作研究进行说明。
其他文献
作者自1 987年以来,对牙体完整,牙根纵折的65例69牙进行了治疗和总结,现报道如下:
“返乡创业”为河南省经济社会快速发展注入了不竭动力,受到了学术界的广泛关注。然而,资金作为返乡创业农民工中的重要助力和保障,相关内容研究仍较为匮乏。了解当前河南省返乡创业农民工融资现状,有助于降低农民工返乡创业风险,帮助河南省返乡创业农民工走出融资困境,提高乡村区域经济发展。运用文献梳理、问卷调研以及统计分析的方法围绕河南省农民工返乡创业中融资困境这一主题,结合调研问卷统计分析结果、实地访谈等获取
目的 :观察对轮状病毒肠炎患儿进行中西医结合治疗的效果。方法 :将我院收治的128例轮状病毒肠炎患儿采用随机数表法分为两组,每组各64例患者。对对照组患儿进行常规西医治疗,
高校全面预算管理是以实现学校可持续发展的长期战略为目标,合理配置、有效利用学校资源,促进学校价值稳步提升的现代管理机制。预算编制水平不高、执行效益低下、绩效考核不严等是目前高校实行的预算管理模式中较普遍的问题,最终导致学校资源浪费严重,学校全面预算管理形同虚设,预期目标难以实现。在此背景下,高校如何提高全面预算管理水平,提高资源的使用效率,维持高校战略可持续发展是不可懈怠,亟待探讨的问题。针对高校