【摘 要】
:
随着移动互联网、物联网技术的发展,各行各业的信息量也呈几何指数增长。如何从海量数据中挖掘出有用信息,已成为大数据应用领域的研究热点。K-Means作为数据挖掘中一个简单
论文部分内容阅读
随着移动互联网、物联网技术的发展,各行各业的信息量也呈几何指数增长。如何从海量数据中挖掘出有用信息,已成为大数据应用领域的研究热点。K-Means作为数据挖掘中一个简单高效的聚类算法,被广泛运用于数据分析与处理。而K-Means聚类算法的最大挑战在于初始中心点的选取、通过减少局部最优的情况提高聚类质量、通过减少迭代次数提升聚类效率。因此,研究K-Means算法在当前分布式计算环境下的优化及并行化实现,对于大数据环境下的数据准实时分析及应用具有重要意义。论文结合分布式系统平台的并行计算框架,研究并优化K-Means算法及其并行实现,具体完成了以下主要工作:1.针对K-Means算法在聚类结果中容易出现局部最优、聚类结果不稳定、聚类过程迭代次数多等问题,提出了随机最大最小距离K-Means优化算法。并在Hadoop平台下利用MapReduce计算框架对优化算法进行了并行化实现,将优化算法与原K-Means算法、以及最大最小距离K-Means算法进行了文本聚类的实验对比,验证了优化算法能够减少初始点选取的迭代次数,提高聚类准确率,且具有时效性。2.在寻找K个初始中心点时,针对随机最大最小距离算法仍然具有迭代次数多的局限性。基于Spark计算框架,进一步提出了一种随机抽样聚类中心点选择方法,并给出了K-Means优化算法的并行实现流程。并分别在Spark平台与Hadoop平台下,对K-Means优化算法与原K-Means算法的并行实现进行实验对比,验证了Spark平台下的算法并行优化实现具有良好的加速比和伸缩性,更适用于大规模数据的聚类分析,具有更好的时效性。综上所述,针对K-Means聚类算法局部最优及中心点选择问题,结合分布式计算平台进行算法优化及并行化实现,能够有效提升算法的准确率、召回率以及运行效率,且具有良好的加速比和伸缩性,更加适用于大数据环境下的聚类分析。
其他文献
图像变换是图像处理与机器视觉研究中的重要工具,因为具有鲁棒性强、去相关性强和计算快速等优点,在图像处理中应用得越来越广泛。随着众多研究者对“分数阶”理论的研究,许
随着编码理论的发展,循环码作为一类特殊的线性码,因具有严谨的代数结构而被广泛研究.常循环码、准循环码和准扭码作为循环码的推广,一方面继承了循环码的良好性能,同时它还有一些循环码不具有的新的特性.如果对准扭码的参数加以限定,就可以从中获得准循环码、常循环码和循环码.准扭码是涵盖三大类码的一类特殊的码,因此对常循环码、准循环码和准扭码的研究是具有一定意义的.同时,利用类推的思想研究了一些推广码的性质以
本文研究了Lyapunov曲线上的带平移的广义多解析函数类的Riemann-Hilbert问题,该函数类是一类n阶迭代Beltrami方程的零解(称为n阶广义β-解析函数)。首先,本文建立了无界区域上一阶广义β-解析函数的Cauchy公式,讨论了带平移的β-Cauchy积分算子的紧致性,由此首次构造并证明了与一阶广义β-解析函数相关联的弱奇异核,进一步获得了广义β-解析函数的多种积分表示。然后,引
聚类算法的研究是机器学习和数据分析领域的热点问题和重要的分析手段。随着应用领域的样本集的维度不断的增长,数据量不断的增大,传统的聚类算法不能很好的适应时代的变化。
制药工业是我国非常重要的产业之一。制药业的良好运营也是我国经济健康运行的良好体现。对于制药行业来说,除了进行药品研发改善经营绩效之外,提高企业管理能力,应对医疗改革政策导向,也是制药企业改善经营绩效需要面对的重要课题之一。原因可以简单概括为国家出台医疗改革政策引导医院的发展,其中药品采购模式和定价方式都直接影响了制药企业的销售渠道和销售利润。因为公立医院是制药公司的主要大客户,所以把握政策导向,积
中药配位化学学说认为,中药中所含的有机成分、微量元素以及二者在中药煎煮过程中反应形成的金属配合物都可能是中药发挥药效的物质基础。然而,目前对中药药效成分的研究主要
新型分子开关材料正在现代社会生活中起着越来越重要的作用,对分子来说分子开关的要求是其具有双稳态,当其收到诸如热、光、电等外界能量激发时,分子可以在两种状态之间进行转换。光致变色是指化合物(A)受到一定波长的光照射,进行特定异构化反应生成化合物(B),又在热作用或者另一波长的光照射下,恢复到原来的形式。光致变色化合物主要包括主要有俘精酸酐、螺毗喃、偶氮、二芳基乙等,近几年来,二芳基乙烯类化合物由于其
异甘草素(isoliquiritigenin,ISL)是属于具有查尔酮结构的黄酮类化合物,主要存在于甘草的根、黄芪、降香、大豆等的根部,它具有广泛的药理活性,如抗氧化、抗炎、抗肿瘤、细胞保
肠道病毒71型(enterovirus 71,EV-A71或EV71)和柯萨奇病毒A组16型(coxsakievirus A 16,CV-A16或CA16)[1]是手足口病的主要病原,二者可引起相似临床症状,但感染机制的差异使CV-A16疫苗研究迟迟落后于EV-A71。因此,深入探索这两种病毒与宿主免疫系统的相关性,仍具有重要的理论及应用意义。前期研究证明,EV-A71和CV-A16均可通过呼吸道
研究目的1.探讨A型肉毒毒素(BoNT/A)治疗小鼠抑郁症的机制;2.探讨小鼠抑郁样行为与海马区BDNF、Gαi1/3表达水平的相关性,以及BDNF、Gαi1/3对A型肉毒毒素(BoNT/A)治疗小鼠抑