一种用于降低复杂度的改进AP算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:nicenic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,了解数据的分布与特征,从而发现有用的信息已经成为一个重要的研究课题,因此很多学者结合机器学习、数据库、数理统计等技术提出了数据挖掘。聚类作为一种无监督的数据挖掘手段,可以根据数据内部分布规律将数据按照相似度分成若干类。虽然已经有很多学者提出了多种聚类算法,但是随着实际数据规模的不断扩大、应用场景变得更加复杂,聚类算法仍然面对很多问题。AP(Affinity Propagation)聚类算法是发表在《Science》上的一种新型聚类算法,它无需提前指定聚类类目以及初始代表点,只需要输入数据点的相似度矩阵,就可以通过两种消息的传递机制,自动迭代直到确定合适的类代表点。结果表明该算法在绝大多数数据集上的表现都比传统的聚类算法更优秀。虽然AP聚类算法相较于传统聚类算法有很多优势,且应用于多个领域,但是它依然面临很多挑战。首先,虽然AP聚类算法不需要提前设定聚类类目,但是其输入参数,偏向参数的值会间接地影响聚类类目,它可以描述每个数据点作为类代表点的偏向程度。一般偏向参数越大,最终聚类类目也就越多,因此如何设置一个合适的偏向参数值成为AP聚类算法中的关键问题。且在原始AP聚类算法中所有数据点的偏向参数值为同一常数,这样的做法无疑不适合于实际情况。因此,本文针对偏向参数的取值问题,提出基于数据密度设置偏向参数,即基于数据点的分布给予不同的偏向参数值,并且引入网格的概念计算数据密度分布,尽量减少额外计算带来的开销。其次,AP聚类算法计算复杂度为O(N×N×logN),当数据规模较大时,算法的耗时会急速增加,且需要存储巨大的相似度矩阵。因此,本文引入两种抽样算法,尽量约简输入数据,在得到具有代表性的样本数据后再执行AP聚类算法。第一种采用最简单高效的简单随机抽样,为了避免随机抽样可能带来的小簇的丢失以及抽样结果的不稳定性,加入分层的思想,先利用随机抽样对数据进行分组,并在每个小组上进行第一层次的AP聚类算法选出全局代表样本点,然后再在样本点上进行第二次聚类。第二种采用较复杂的密度偏差抽样,基于数据的密度分布进行抽样,可以克服随机抽样的缺点,在计算数据点密度时,同样引入网格划分。这样直接通过一次抽样就可以直接运行AP算法,在第一种算法的基础上又提高了算法的效率。在UCI数据库以及人工数据集上进行仿真实验,实验结果表明基于偏向参数的改进算法在聚类精度上有很大的提升,基于抽样的两种改进算法在算法效率上明显优于AP聚类算法,其中基于密度偏差抽样的算法耗时最短。其次还结合基于偏向参数的优化与基于抽样的算法,发现结合之后的算法在精度、效率上都比单独应用这两种算效果更好。最后还将本文算法与其它的改进算法进行比较。
其他文献
<正>2011年7月,《重庆市安全保障型城市发展规划(2011-2015年)》对外公布,规划确定了4项重点考核的约束性指标:亿元地区生产总值生产安全事故死亡率、工矿商贸就业人员十万人
营业税改增值税是我国税法体系改革的重要一步,营改增从试点推行到在全国范围内的全面推行,也已经经历了许多个年头。企业也在积极适应营改增的过程中不断摸索着自身发展新模
研究了蚕沙和赤泥对铅镉污染土壤的理化性质和重金属形态分布的影响,并考察了蚕沙和赤泥对小白菜生长情况及吸收重金属的影响。结果表明,蚕沙能大幅提高土壤有机质含量,赤泥
桉树是我国华南地区最重要的速生用材林树种。然而,我国南方速生桉林地土壤有效磷含量低且土壤pH值大多低于4.5,活性铝含量较高。因此,桉树推广栽培过程必然面临着低磷和铝胁
目的探讨类毒素-A(ANTX-A)致神经元烟碱型乙酰胆碱受体激活和脱敏时胞内钙调信号的变化.方法用Fluo-3-AM荧光法和发色底物法分别测定PC12细胞在激活和脱敏状态胞内钙离子浓度
艾米·比奇(Amy Marcy Cheney Beach,1867-1944)是十九世纪末至二十世纪初美国具有代表性作曲家,也是美国第一个成功创作大型音乐作品的女性作曲家,并受到世界乐团高度肯定。
随着马铃薯"主粮化"以及玉米结构调整战略的提出,马铃薯在朝阳市农作物种植结构中的地位越来越重要。介绍朝阳市马铃薯产业发展及机械化应用情况,分析制约马铃薯机械化发展的
1.研究目的热休克蛋白,又称为“应激蛋白”,是当增高的热度,病原体,细胞因子,理化有害因素刺激伤害生物细胞时,激活HSP基因,编码合成的一类生物进化上最保守的蛋白。此蛋白与
《南方职业教育学刊》(双月刊)是经国家新闻出版署批准、由广东省教育厅主管、广州铁路职业技术学院和汕头职业技术学院联合主办的综合性学术期刊。国内统一刊号CN44-1679/G4
【正】随着互联网技术的飞速发展,网络用户参与信息传播的积极性被极大地激发出来,人们试图将网络互动与现实实践有机结合,并且努力开发实用且真实的应用体验。于是促成了一