【摘 要】
:
流数据分析作为数据挖掘领域研究的重点课题之一,采用的技术主要有分类、频繁项挖掘、聚类、估计、预测、相关性分组和关联规则等,其中流聚类领域经典算法CluStream中的在线-
论文部分内容阅读
流数据分析作为数据挖掘领域研究的重点课题之一,采用的技术主要有分类、频繁项挖掘、聚类、估计、预测、相关性分组和关联规则等,其中流聚类领域经典算法CluStream中的在线-离线处理框架能够在线分析流数据信息,并根据用户的需求离线聚类,输出相应时段的数据信息,但算法对高维数据的划分效率较低,基于此,提出一种基于核方法的流聚类演化算法。首先,针对流数据维数多样,难以在原始空间下线性划分的问题,引入核方法,通过非线性映射规则,将数据映射到高维特征空间的核矩阵中,从而对其进行有效的线性划分,同时避免了数据处理当中的维数灾难问题。然而由于流数据的无限性,核矩阵的构造会导致计算量大和内存占用大的问题,本文采用基于统计杠杆分数的差异性采样法,在线得到与整个流数据中的数据分布相似的样本集,来构造样本核矩阵,该方法在缓解内存压力、降低算法时间复杂度方面具有良好的效果,同时具备实时处理的性能。然后,通过对样本核矩阵中的数据进行循环聚类,得到流数据中的概要数据模型,用来对新数据进行划分。最后,针对流数据演化过程的更新,本文算法受以往流聚类算法中引入时间衰减因子的启发,利用时间衰减函数的原理构造衰退聚类机制,实时更新和划分数据来反映流数据的演化过程。通过随机数据集和UCI数据集上的实验表明,本文算法具有良好的聚类性能,同时对不同维度数据集的聚类性能具有较好的稳定性。
其他文献
京津冀协同发展的重要性日益引起三地人民的普遍重视,承接首都功能疏解和产业转移为河北,尤其是廊坊公共事业组织的发展提供了契机。在建设现代服务业和战略性新兴产业为主导
以冠心病为代表的心血管系统疾病严重威胁人类生命健康安全。目前,临床治疗冠心病最有效的方法是在病变处植入血管支架。然而由于血管内膜损伤,支架植入后往往会发生晚期血栓
近年来,随着信息技术的快速发展,受消费者购物模式转变的影响,我国传统零售企业正面临着巨大的生存挑战。而另一方面,随着互联网应用的深入,网络营销已经成为企业整体营销战略的重要组成部分,隐形眼镜行业无论是实体零售渠道还是网络零售渠道在新时期面临挑战的同时,也带来了新的商机。本文研究的目的在于通过理论与实证相结合的方式探讨在互联网快速发展的背景下,隐形眼镜这个介于专业医疗器械和快速消费品之间的品类,如何
全球环境污染及一次能源短缺的问题日益突出,以太阳能、风能、生物质能为主要代表,作为能源替代及补充的可再生能源逐渐引起了社会的广泛关注。其中,生物质能源又以其资源丰
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种主动式相干成像雷达具有全天时、全天候、分辨率高、观测幅宽大等优点,其在军事领域中最重要的用途为战场感知及侦察。
在全球化的背景之下,苏联解体之后的俄罗斯联邦必然要融入世界发展的洪流之中,也就是黑格尔所言的“世界历史”,为了能够迅速完成向西方政治体制的过渡,叶利钦采用理性建构主
航空重力测量是以飞机为载体快速经济地确定区域重力场的有效方式之一,可获取地球重力场中的中高频段分量,是建立高分辨、高精度的地球重力场模型的重要数据来源,因此得到广泛而深入的研究。当前航空重力测量中载体加速度确定方法主要以GPS为主的单一导航系统进行研究,随着北斗卫星导航系统的不断发展,开展北斗系统的航空重力测量中加速度高精度估计研究也就变得很有必要。本文借鉴GPS系统在航空重力测量领域的相关经验,
粤港澳大湾区建设是重大国家级战略,南方电网公司将全力助力粤港澳大湾区建设充满活力的世界级城市群。500千伏变电站作为枢纽变电站,500千伏变电站及输电线路是目前最主要的跨区域电能输送解决办法,其与其他区域枢纽变电站和主干输电线路组成重要的电力网骨架,是电网安全可靠运行的重要保障。为服务好粤港澳大湾区发展,全力满足电力需求,更好地支撑广东省“四个走在全国前列”,努力做好保安全、强电网、稳经营、优服务
伴随国民收入的不断增加,城市化水平迅速提升,国内粮食消费数量开始呈现出快速增长的趋势,为确保我国粮食安全、促进经济社会发展奠定了坚实基础。然而多年来,国内粮食产业已经形成了一定规模,不过缺乏创新能力,产业结构并不完善、存在很多低端产能,不能完全满足当前民众的消费需求。如何在困境中继续前行,持续获取利润,对于涉粮产业上市公司的管理工作特别是财务管理工作提出了更高的要求,而提高企业财务管理工作水平最有
随着移动智能终端的蓬勃发展,人们已迅速步入移动互联网时代,移动互联网已渗透到人们生活的方方面面,不断的改变着人们的生活方式。移动智能终端在人们生活中成为了不可或缺