面向网站分析的模糊C均值算法改进研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着聚类分析技术的不断发展,网站分析已成为当前人们关注的焦点。网站日志数据具有强大的功能和实用性,它能够对用户的访问行为进行有效记录,运用高效的聚类算法可以挖掘出潜在的用户行为规律,从而使得网站工作人员能够及时对页面结构进行调整和优化,为用户提供全面和个性化的服务,具有重要的意义。因此本文主要围绕高效聚类算法和网站分析应用这两个方面进行研究。模糊C均值算法是应用最广泛的一种模糊聚类方法,它引入了隶属度的概念,更加适合应用于网站分析中。本文在总结国内外关于模糊C均值算法研究现状的基础上,深入研究了该算法主要存在的聚类数目难以确定和数据分布过于密集对聚类分析造成影响等不足,并在此基础上提出改进的模糊C均值算法,主要思路是:引入Canopy算法来生成有效的聚类数目和初始聚类中心,解决确定聚类数目困难和随机初始聚类中心容易产生局部最优解的问题;将距离度量方法由欧几里得距离改成马哈拉诺比斯距离,消除数据密集分布不均匀的影响。网站分析具体是对网站日志数据的分析,本文采用改进模糊C均值算法对实际案例展开分析。首先通过数据清洗、用户识别和会话识别对日志数据进行预处理,得到用户访问页面数据;然后将改进模糊C均值算法应用于用户聚类和页面聚类过程中,根据聚类结果分析得到了具有相同行为规律的用户群体以及他们访问页面的需求和兴趣;最后将传统模糊C均值算法应用于页面聚类过程中,通过对比分析页面聚类分析结果,验证了本文所提出的改进模糊C均值算法的有效性和正确性。
其他文献
睡眠是保护脑子的最好方法,如果每天睡眠好,就头脑清醒,精力充沛,这对脑力劳动较多的编辑记者来说更为重要,是提高工作效率的重要关键之一。睡眠是大脑细胞的总休息。在生理
福建日报编委会最近讨论了报纸当前的任务和如何进一步提高报道质量的问题。编委会认为:当前福建日报的主要任务是:进一步宣传党的总路线,宣传毛泽东思想和党的一整套两条腿
过去我恨不得把每个机会都抓住,现在是首先不能掉进陷阱里面去,必须能够让自己先活着。有人称我是中国地产史上著名的“权威挑战者”。六七年前,我瞪大眼睛高喊要超越万科、
如果房价降了就找开发商,那我想问一下,当年房价涨的时候您有没有给开发商补差价呢?前几年房价偶有下调的时候,老业主们不干了,冲到售楼处砸东西,因为他们认为降价对他们早期
做投资,只靠运气只有1%的成功机会。出手太快会错失更好的机会,出手太慢则根本没有机会。那么,怎么才能抓住机会?知名投资人阎焱说过,一个投资人要积累十几年经验才能独立做
自从2008年的金融危机之后,国内各行业都在经受惨痛洗礼的同时寻求摆脱危机阴影的突破口。然而就当其他行业不景气的时候,房地产行业却一枝独秀,就像获得生机一般不断地蓬勃发展
利用庭院养泥鳅,占地少,易养殖,省劳力,投资小,效益大。合理选址应选背风向阳、水源充足的庭院或附近坑塘建池,要求坚固,不渗漏。底铺30厘米爬泥供泥鳅潜入栖息。池子应设进
支持向量机作为一个非常有效的机器学习方法,已经广泛应用于小样本、高维的分类和回归问题中。然而,在构建支持向量机模型时,一个非常重要的问题是如何优化模型参数与核参数。针
在中国独特的传统文化和经济条件下,随着经济水平的发展和提高,市场竞争也越来越剧烈,人们的工作和生活压力越来越大。因此人们开始关注幸福水平。人们越来越倾向于将幸福感
篮球运动在我国具有广泛的群众基础,普及程度较高,但我国的竞技篮球水平与欧美强队相比存在着一定的差距。男篮,尤其在姚明、李楠等优秀国手退役之后,竞技篮球后备人才的匮乏更是