分布式数据挖掘算法与信息理论的研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:yuhuipin1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据挖掘的理论和技术蓬勃发展,以缓解由数据库技术的普及带来的"数据过剩而知识匮乏"的问题.数据挖掘不仅已成为生物信息、计算化学、地理信息等科学领域的重要研究手段,并已渗透到医疗保健、疾病控制、计算金融等与国民生产休戚相关的各个领域. 本文的研究首先围绕分布式数据挖掘中亟需解决的两个大问题展开,包括:对等网络中的分布式分类算法和数据挖掘流在异构计算环境中的分布式计算;并从中抽象出如干具体的分布式计算子问题.同时,本文包含一部分关于信息理论的研究工作:划分熵的不等式定义及其在聚类评价方面的应用.总结起来,本文的创造性研究成果主要有:1.提出了对等网络中的分布式分类算法.该算法采用分类器合成的模式:每个节点独立训练和维护局部分类器,并参与最高票选举进行样本预测.我们从理论上证明:所提出的在动态网络中的分布式最高票选举算法DPV<,0>具有局部通信最优性.实验表明:(1)尽管数据分散在成百上千个节点上,该分类模式仍然是有效的;(2)DPV<,0>具有局部性,即在多数情况下每个节点仅需收集临近节点的信息而计算最终结果;(3)在通信费用和收敛时间上,DPV<,0>都显著的优于实验中的其它算法,且它的局部性与网络大小无关.2.提出了数据挖掘流程在异构计算环境中的任务分配算法.考虑到数据挖掘任务流和计算节点的特点,该算法实际是异构计算环境对有向无环任务图的动态分配算法.在我们开发的数据挖掘异构计算环境上的实验表明:该算法对系统吞吐量、系统效率、任务响应时间等指标的改善是有效的.3.提出了异构计算环境对独立任务组的贪婪分配算法<1>.将任务一致性概念引入该算法,并指出此概念是影响不同分配算法性能的重要指标.实验比较了20种(其中的17种由本文提出)贪婪分配算法,目的是探究在何种情况下,哪个算法性能最优.实验主要表明:算法TPD↓-minCT-minCT在绝大多数情况下优于其余算法.4.对划分熵的不等式定义进行了理论分析.由于条件熵可定义于划分熵之上,则条件熵所需满足的性质实际是对划分熵的额外限制;因而,本文形式化了条件熵的单调性性质,将其引入划分熵的更严格的定义,并给出新定义的划分熵的检验定理.这些定理揭示了隐藏于划分熵和条件熵直观理解背后的数学本质.5.基于抽象的条件熵定义,给出了有限集合的两个划分之间的准距离的一般形式,并用于聚类评价.由于该准距离满足最小可达性、对称性和三角不等式,这使得它可作为聚类评价的度量.同时,注意到不同聚类数据的距离值域不同,给出了准距离的归一化方法.实验表明:(1) 在比较不同数据的聚类结果时,归一化后的距离比原始距离性能更优;(2) 由香农熵构造的距离在所测试的4种距离中性能最佳.
其他文献
学位
我国自主研发的嵌入式实时操作系统Hopen,随着其应用领域的不断扩展,系统内核面临着从软实时向实时性要求更高的硬实时的转变。Hopen现有的调度算法是一种简单的基于固定优先级
学位
蛋白质科学是生物科学的重要组成部分,蛋白质分类是蛋白质科学的热点研究领域。如今,模式识别与机器学习的广泛研究,快速的推动了蛋白质分类的发展。在模式识别领域,大部分数
隔行视频(Interlaced Video)信号在电视广播领域内得到广泛应用.然而,随着计算机和多媒体技术的发展,逐行视频(Progressive Video)在互联网上应用非常普及.在电视广播、通信
网格从最开始的理论设想发展到现在的具体应用,它的内涵经历了不断的演化和变迁。最早是“电网”比喻,像用电一样来使用网格资源,不管是火电还是水电,不管生产经过了什么样的工序
学位
模态逻辑是逻辑学中的一个重要的分支,它是自然语言中有关模态部分的数理模型.目前,模态逻辑已经被广泛用于人工智能的知识表示以及计算机科学的其他领域. 信念逻辑是一类
交换结构和调度算法的性能分析是交换机研究中的核心问题.在理论分析和仿真实验这两种分析方法中,仿真实验因具有良好的可操作性而被广泛使用.传统仿真方法基于个别流量负载
随着2D图像通信系统应用越来越广泛,具有立体感和可交互性的自由视点视频系统(FVV,Free Viewpoint Video)逐渐成为下一代多媒体系统的研究目标.本文探讨的自由视点视频系统采
由于并行传输电路在高速传输方面的不足,串行传输技术得到了迅猛发展,中科院计算所曙光5000高性能计算机的交换芯片就采用了这一技术以满足芯片间的高速通信需求.对于高速串
机群系统以良好的可扩展性、可用性、可靠性和性能价格比占据着高性能计算机领域的主导地位.大规模的机群系统由于节点量大存在诸多问题,如管理的复杂程度高、可靠性降低、整