基于条件随机场的中医病历命名实体抽取方法研究

来源 :北京交通大学 | 被引量 : 17次 | 上传用户：jsj19871027

【摘要】

：

临床诊疗实践是中医学理论研究和诊疗技术创新的源泉。随着近10年医疗信息化建设的进展和临床数据的不断积累,作为诊疗实践主要信息载体的中医临床病历成为中医学和信息学关

【作者】

：

刘凯

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2013年01期

【关键词】

：

中医临床病历命名实体抽取语料库标注系统条件随机场特征模板

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

临床诊疗实践是中医学理论研究和诊疗技术创新的源泉。随着近10年医疗信息化建设的进展和临床数据的不断积累,作为诊疗实践主要信息载体的中医临床病历成为中医学和信息学关注的重要研究资源。名老中医文本病历是中医临床诊疗的重要数据资源,它具有非结构化、口语化、专业化等特点,对其数据深度利用的重要前提是对相关医学命名实体术语的抽取,而命名实体抽取方法正是从自由文本中抽取所需命名实体术语的基础技术。但由于中文自然语言表达的灵活性和中医临床信息内容的个体性特点,进行中医临床文本病历的信息抽取研究是一个难点问题。因此,进行中医文本病历的命名实体抽取研究,探索形成相关的适宜信息抽取方法具有重要价值。本文首先介绍信息抽取的研究现状和相关算法,分析中医临床病历的数据特点以及对中医病历进行命名实体抽取面临的困难。在此基础上,进行语料库标注系统的设计和开发,该语料库标注系统可通过Bubble-Bootstrapping算法、前向最大匹配算法和手工标注相结合的方式对病历进行命名实体抽取,并可对语料进行多粒度存储和多格式导出。结合语料库标注系统和专家审核的方式对病历进行标注,本文共形成由413份标注文本病历数据集,该数据集主要包含冠心病(233份)和糖尿病(180份)两个子集。其次,鉴于症状／体征、诱因和疾病名称是中医临床病历中的重要命名实体,本文通过对中医临床病历中的主要构成内容：主诉和现病史的语句特点和语法模式分析,提炼形成了六种与命名实体抽取相关的特征。在此基础上,构建出四类面向命名实体抽取的特征模板。基于该特征模板集应用条件随机场(Conditional Random Fields, CRF)进行了中医临床病历的命名实体抽取方法研究。通过十重交叉检验测试,实验结果表明结合特征模板MT3,CRF命名实体抽取表现最好(F1)(糖尿病：症状0.80,疾病名称0.74,诱因0.63；冠心病：症状0.77,疾病名称0.64,诱因0.74)。同时我们比较了CRF与隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)的命名实体抽取效果。实验结果显示,相较HMM和MEMM,CRF有最高的准确率和召回率。初步表明,CRF是一种较为适用的中医临床病历命名实体抽取方法。在本研究的基础之上,可以将经过训练后的CRF模型集成到语料库标注系统中,形成中医病历命名实体智能标注系统,实现中医病历的自动结构化。

其他文献

Hadoop集群系统性能优化的研究

云计算在商业和科学研究上的价值已渐渐被社会认可。它可以在搜索引擎、互联网应用技术、大规模数据计算等方面发挥出巨大的能量。Hadoop技术作为云计算技术的开源实现，对云计

学位

云计算Hadoop集群参数信息系统TaskConfigure服务器节点权值比例参数任务自适应调度算法

专家信息资源收集中数据清洗与融合算法研究

专家信息资源由于规模巨大从而在收集过程中存在冗余度高、可信度低且信息描述方式不一致等问题,结果准确性难以保证。因此有效的数据清洗技术成为必须。而清洗中的规范与之

学位

信息融合数据标准化知识粒图最大权值路径粒计算专家库

H.264编码器和解码器联合并行算法研究

随着视频编解码算法的发展,运用多核处理器对视频编解码器实现并行加速逐渐成为国际视频编解码研究的热点。目前各国学者主要对编码器或者解码器的并行算法独立进行研究,并未

学位

H.264编解码联合并行x264FFmpeg片级加速比

基于猫群算法的无线传感器网络路由优化算法研究

无线传感器网络是由几千至几万个部署在监测区域内的传感器节点组成，该网络是一个多跳的自组织网络系统，并通过无线通信的方式传输数据。传感器节点之间协作的感测、收集、传递

学位

无线传感器网络路由算法猫群算法梯度扩散蚁群算法

基于Kinect的三维多手指踊跃算法及应用

在三维人机交互系统中，实时、稳定的多手指跟踪能让用户像操作真实物体一样去操作虚拟物体，因此能带来非常好的用户体验，而且它能提供手的三维结构信息，因此也能促进手势识别算法

学位

多手指跟踪人机交互手势识别裸手交互

带平衡约束圆与矩形Packing问题的启发式蚁群算法研究与应用

卫星舱布局问题指的是卫星有效载荷在卫星舱体内有限空间进行合理摆放的组合优化问题，是组合数学和运筹学等多个学科的研究热点。卫星舱布局优化问题涉及到多学科、多领域的知

学位

启发式布局优化问题蚁群算法拟物算法调整策略

智能视频监控中人脸检测的研究与实现

在当今社会中，视频监控在很多场合得到了非常广泛的应用。但是传统的视频监控系统存在海量数据、被动监控、事后监控等众多不足之处，难以处理复杂的监控场景和行为。而智能视频

学位

人脸检测运动目标检测AdaBoost算法背景消减法智能视频监控

NoSQL数据库最终一致性的研究

随着Web2.0时代的到来和云计算的兴起，传统关系数据库在应付Web2.0网站，特别是超大规模和高并发SNS类型的网站时越发显得力不从心，暴露了很多难以克服的问题，NoSQL则由于本身的特

学位

NoSQL数据库最终一致性分布式系统同步机制向量时钟

基于关联规则挖掘的分类算法研究

随着社会信息化的高速发展，数据挖掘技术在各领域的重要作用日益凸显出来。分类是数据挖掘领域的一种重要分析手段，而关联规则挖掘是数据挖掘领域的一个重要研究方向，两者作为数

学位

数据挖掘关联规则挖掘分类算法关联分类P-Trie树

基于混合先验模型的双目图像超分辨率研究

图像超分辨率(Super Resolution,SR)重建技术是指通过提取多幅低分辨率(Low Resolution, LR)图像的图像信息,消除各种影响图像质量的噪声和模糊,重建出质量更清晰、分辨率更

学位

双目图像先验模型高斯模糊核迭代高分辨率图低分辨率图

基于条件随机场的中医病历命名实体抽取方法研究

其他学术论文