论文部分内容阅读
数据挖掘技术是从大量的、不完全的、有噪声的、模糊的、随机的实际应用的数据中,提取隐含在其中的、人们事先不知道的信息和知识的过程。它是信息技术未来的发展方向。本文依托于“十一五”国家科技支撑课题“基于认知的名老中医学术思想临床经验挖掘技术研究”和与中医院合作的“灵兰”中医知识搜索引擎系统,目的是挖掘出中医的诊断经验和用药规律。
本文介绍了论文的研究背景以及选题的意义。研究分析了论文相关的知识包括中医医案数据的特点、自然语言提取方法以及本体等,总结各种频繁子图的挖掘的算法,分析其存在的问题及解决的办法。之后设计和开发了中医方剂图挖掘系统。中医方剂图挖掘系统分为三个系统分别是中医方剂管理子系统、图结构生成子系统、核心方剂的挖掘及显示子系统。
中医方剂管理子系统对中医医案和方剂进行自然语言处理,将文本形式的医案进行中文分词、词性标注、建立分词词典等预处理操作,然后对处理过的数据进行概念提取和属性的匹配,本文通过中医的领域本体来匹配概念的属性。
图结构生成子系统根据经过预处理的中医药的数据,进行图结构的自动构建。系统实现三种构建方法,分别是基于概率的图模型构建,基于半边理论的图模型的构建及本文提出的综合了上述两种方法的综合(概率半边图构建)构建法。
核心方剂的挖掘及显示子系统使用gSpan算法实现了中医药核心方剂的挖掘,挖掘出了有效方剂的核心药物,并筛选出具有研究前景的基本药方组成,并应用可视化技术形象的展示出来。
最后,设计了三个测试对中医挖掘系统核心功能进行测试,以检验各个子系统的的运行结果和效率。