论文部分内容阅读
案例推理(case-based reasoning,CBR)是人工智能领域一种推理技术和机器学习方法。从认知科学的角度看,CBR模拟人的认知过程,其核心思想在于对新问题求解时,可以使用以前求解类似问题的经验来进行推理和学习,从而对问题的求解进行指导甚至直接重用结果,而不必从头做起。一般来说,CBR的研究内容主要涉及到案例的检索(Retrieve)、重用(Reuse)、修正(Revise)和存储(Retain),即4R认知推理模型。其中,特征选择及其权重分配会显著影响CBR的求解质量。由于特征选择方法还存在一些问题,比如粗糙集的泛化能力较差;遗传算法的算法复杂度较高;邻域粗糙集的邻域半径难以确定;基于互信息(mutual information,MI)的特征选择方法未考虑分类器的分类性能而导致特征选择后分类准确率下降。另外,特征变量的权重分配方法中,主观法过分依赖于领域专家经验;客观求解法中,比如遗传算法容易陷入局部极小;神经网络的结构难以确定。这些问题的存在使得CBR的求解质量还有待提高。因此,研究特征选择及其权重分配方法具有较重要的意义。本文以MI为方法基础,以提高CBR分类器的分类性能为目标,研究了一种基于MI的特征选择及其权重分配方法,取得如下结果: (1)针对特征变量的有效选择问题,提出一种考虑分类性能的MI特征选择方法。首先,计算特征和类别之间的互信息大小,并定义相关的特征选择策略;然后,根据特征变量和类别变量之间的相关性以及特征变量所包含的分类信息定义特征冗余度和相关性;最后根据CBR的分类准确率制定评价准则得到特征子集。对比实验表明该特征选择方法能够准确删除冗余特征,有利于提高CBR的分类性能; (2)针对特征权重的优化分配问题,利用互信息度量每个特征变量对CBR分类器的贡献度进而实现权重的合理分配。在此基础上,建立了一种基于互信息特征选择和权重分配的CBR分类器。该方法可以有效挖掘特征数据蕴含的分类信息,避免冗余特征对分类可靠性的不利影响,在降低时间复杂度的基础上,分类准确率得以提高; (3)在实验成功的基础上,根据上述的CBR分类器设计了一个糖尿病的诊断系统。介绍了该系统的构成原理与每个模块的功能,并利用C#开发了辅助诊断系统,并从诊断的准确率、真阳率、假阳率等方面考察了本文方法的有效性。诊断结果进一步说明了本文所提出方法的有效性。