论文部分内容阅读
随着社会信息化程度的提高,数据量呈指数增长。从大量数据中快速有效地获得最有价值的信息资源在当今信息时代具有重要意义。其中,分类预测技术作为智能决策的重要手段将在未来的智能系统中发挥重要作用。本文主要对贝叶斯分类器中的TAN分类器进行研究,贝叶斯分类器作为其中重要的一类分类器同其他分类器相比具有如下特点:(1)贝叶斯分类器并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率分布;(2)一般情况下在贝叶斯分类器中所有的属性都潜在地起作用,即并不是一个或者几个属性决定分类,而是所有的属性都参与分类;但其中也存在一些问题:1.使用朴素贝叶斯分类,是基于各个属性之间相互独立的假设之上的,从而忽略了属性之间的关系。2.使用TAN分类,需要将每个属性之间的关系进行计算,则有可能强加了一部分属性之间本就不强的联系。针对出现的问题,本文将关联分析和TAN分类结合起来,通过关联分析产生有效的关联规则并使用这些规则指导建立TAN分类器进行分类。在建立过程中因为引入了关联分析使得建立的模型介于朴素贝叶斯分类模型与TAN分类模型之间,有效的解决了属性之间要么完全没有关联要么关联过于“紧密”的情况。从而提出了使用关联分析结果指导建立‘TAN结构并进行分类的方法,即TANBA。
本文首先阐述了分类关联规则的有关概念,以及关联分类的方法和技术。其次,介绍了贝叶斯分类的相关知识和方法,特别重点介绍了TAN分类方法。之后,研究说明了基于关联分析的TAN算法(TANBA)及算法的关键技术,重点研究实现了基于Apriori改进的Apriori_DRM关联规则挖掘算法,以及基于关联规则的TAN结构构建算法。并对TANBA进行实验分析,将其应用于中医感冒方剂数据和真实世界的数据中,分析算法的分类效果及效率,同时对生成的贝叶斯分类模型进行分析,进一步的对算法的正确性和有效性进行分析和验证。