论文部分内容阅读
目前,数据挖掘的理论和技术蓬勃发展,以缓解由数据库技术的普及带来的"数据过剩而知识匮乏"的问题.数据挖掘不仅已成为生物信息、计算化学、地理信息等科学领域的重要研究手段,并已渗透到医疗保健、疾病控制、计算金融等与国民生产休戚相关的各个领域.
本文的研究首先围绕分布式数据挖掘中亟需解决的两个大问题展开,包括:对等网络中的分布式分类算法和数据挖掘流在异构计算环境中的分布式计算;并从中抽象出如干具体的分布式计算子问题.同时,本文包含一部分关于信息理论的研究工作:划分熵的不等式定义及其在聚类评价方面的应用.总结起来,本文的创造性研究成果主要有:1.提出了对等网络中的分布式分类算法.该算法采用分类器合成的模式:每个节点独立训练和维护局部分类器,并参与最高票选举进行样本预测.我们从理论上证明:所提出的在动态网络中的分布式最高票选举算法DPV<,0>具有局部通信最优性.实验表明:(1)尽管数据分散在成百上千个节点上,该分类模式仍然是有效的;(2)DPV<,0>具有局部性,即在多数情况下每个节点仅需收集临近节点的信息而计算最终结果;(3)在通信费用和收敛时间上,DPV<,0>都显著的优于实验中的其它算法,且它的局部性与网络大小无关.2.提出了数据挖掘流程在异构计算环境中的任务分配算法.考虑到数据挖掘任务流和计算节点的特点,该算法实际是异构计算环境对有向无环任务图的动态分配算法.在我们开发的数据挖掘异构计算环境上的实验表明:该算法对系统吞吐量、系统效率、任务响应时间等指标的改善是有效的.3.提出了异构计算环境对独立任务组的贪婪分配算法<1>.将任务一致性概念引入该算法,并指出此概念是影响不同分配算法性能的重要指标.实验比较了20种(其中的17种由本文提出)贪婪分配算法,目的是探究在何种情况下,哪个算法性能最优.实验主要表明:算法TPD↓-minCT-minCT在绝大多数情况下优于其余算法.4.对划分熵的不等式定义进行了理论分析.由于条件熵可定义于划分熵之上,则条件熵所需满足的性质实际是对划分熵的额外限制;因而,本文形式化了条件熵的单调性性质,将其引入划分熵的更严格的定义,并给出新定义的划分熵的检验定理.这些定理揭示了隐藏于划分熵和条件熵直观理解背后的数学本质.5.基于抽象的条件熵定义,给出了有限集合的两个划分之间的准距离的一般形式,并用于聚类评价.由于该准距离满足最小可达性、对称性和三角不等式,这使得它可作为聚类评价的度量.同时,注意到不同聚类数据的距离值域不同,给出了准距离的归一化方法.实验表明:(1) 在比较不同数据的聚类结果时,归一化后的距离比原始距离性能更优;(2) 由香农熵构造的距离在所测试的4种距离中性能最佳.