统计方法在客户细分数据挖掘中的应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:Ricky_C
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以某公司的销售提单数据为背景研究了统计方法在客户细分数据挖掘技术中的应用。首先简略介绍了数据挖掘和客户细分的相关内容,然后在客户细分的数据预处理和客户分类两方面展开研究。我做的主要工作:一、利用主成分分析进行数据预处理,并和普通的预处理方法做比较,普通的预处理方法只是在填充缺失值和去掉噪音数据方面有作用,而主成分分析能够起到很好的降维作用,为下一步分析提供相对较小的数据集,为分析带来方便;二、客户分类的实现,比较了决策树分类和聚类分析两种方法,首先利用决策树的分类,但效果不理想,随后,利用聚类分析中的Ward法和K-Means方法聚类,利用SAS和Clementine两种软件实现,并对聚类结果做了详细的介绍。研究客户细分的文章很多,但从统计方法的角度的很少,本文只是从两种比较常用的统计方法在客户细分的数据挖掘中的应用,做了一个很小的尝试。
其他文献
整群环理论是代数学的一个重要分支,它与同调代数、表示论、代数K-理论等其他分支有着深刻的联系,是一个基础性较强的研究领域。  记整群环ZG的增广理想的n次幂为△n(G)(称之
Markov链模型是独立随机试验模型最直接的推广,因早在1906年就对它进行研究的俄国数学家Markov而得名.20世纪中后期,Kolmogorov,Feller和Doob等数学家发展了这一理论.关于Markov过
在抽样调查中,无回答是经常遇到的也是比较难处理的问题之一,它的出现直接影响着估计的精度,调查中的无回答也一直是困扰调查统计工作者的一个问题.虽然国际统计界对无回答问
John von Neumann在1950年代提出的细胞自动机是一种时间、空间与状态都离散的数学模型.在型态表现上,每个细胞自动机都是一个离散型的动力系统.通过设计不同的局部规则,细胞
在过去三四十年里,Walrasian平衡点的存在的Arrow-Debreu结果已经在很多方面被推广。Mas-Colell首先认为平衡点的存在无需假定偏好是完备和可传递的,然后Gale和Mas-Colell证明
Bezier曲线是CAGD系统中最基本的造型工具之一。由于它采用一组独特的多项式基函数,使得它具有许多优良的性质。但是Bezier曲线段之间的拼接特别是二阶连续的拼接比较困难,而有
随着计算机的飞速发展和社会信息化程度的不断提高,信息是无处不在,信息的安全性问题也越来越受到人们的高度重视。在信息安全问题上,怎么产生形态优良的伪随机数至关重要,因为形
在实际中,许多系统的状态是部分可测或不完全可测,故构造观测器,并用估计状态实现反馈控制是一个非常有意义的研究工作.关于观测器的设计方法,目前已经有许多著作,然而,对于
手写文字识别技术已广泛应用于各类智能系统。粘接文字的分割是手写文字识别的第一步,因其分割难度之大,往往成为进一步识别甚至是整个智能系统的瓶颈,分割的好坏直接决定了识别
时间序列是根据动力系统观测得到的数据,作为研究系统内部规律的依据。目前时间序列分析已经在多个领域的应用中取得了极大的进展。本文尝试将奇异值分解方法应用于时间序列分