论文部分内容阅读
随着数据库技术的发展以及数据库管理系统的广泛应用,出现了数据爆炸但知识贫乏的现象,数据挖掘随之产生。它是一项通过对海量数掘进行提取、逻辑分析等处理操作来获得潜在有用的知识的技术,是目前国际上信息处理领域最前沿的研究方向之一。
我国的中医学有着悠久历史,中医学理论主要来源于对实践的总结,并在实践中不断得到充实和发展。中医辨证是中医学中的精华,是中医诊断学的主要研究内容,并为临床治疗提供依掘。目前的中医辨证还没有一个统一的规范标准,并且传统的统计学方法缺乏逻辑分析能力,所以辨证的客观真实性也是备受质疑。
本文讨论了以中医小儿肺炎病例数据为示范,将数据挖掘技术与中医辨证理论相结合来生成中医辨证规范的过程。首先,根据中医辨证方法和数据特点建立了中医辨证的五层结构,并转化成为数据挖掘模型。随后,根据这个挖掘模型对中医小儿肺炎病例这个高维空间数据集运用了相关的数据挖掘技术与方法,包括通过聚类挖掘得到证的分布及证的构成比,通过关联规则挖掘得到症状表现的关联关系和症状的贡献率。详细讨论了两个经典聚类算法,基于划分的K.平均算法和基于密度与网格的CLIOUE算法。其中K-平均算法根掘病例数据特点使用了两种不同的相似度计算函数,提高了挖掘结果的准确性。此外,在面向中医辨证的关联规则挖掘过程中提到一个基于产生频繁项集的方法Apriori算法,经实验分析表明,随着数据集维数的增加,在产生候选频繁项集的过程中,算法的执行效率急剧下降。于是在FP-growth算法的基础上提出了DFP-growth,该算法采用了一个类似FP-tree的树型结构,使用了压缩树的方法,简化了树的结构,提高了效率。最后,结合聚类挖掘和关联规则挖掘技术,展示了中医小儿肺炎辨证规范生成的一个详细过程。