【摘 要】
:
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用.目前,聚类算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题.该文针对以上问题,以模糊c-均值算法为基础,研究了如何降低算法对初值和输入参数的依赖,自主进行全局搜索,找到全局最优解;研究了如何提高算法的效率,使聚类算法迅速收敛;研究了如何提高算法的有效性等问题.模糊c-均值聚类(FCM)算法是最早的目标函数聚类算法,也是目标函数聚类算法中研究得比较充分的算法.但是,模糊c-均值聚类算法的研究中仍旧存在薄弱环节和不足之处.算法对初始值敏感和容易陷入局部最优解的问题就是一个薄弱环节.针对这种研究现状,该文提出了一种基于遗传算法的模糊聚类方法.将遗传算法与FCM算法相结合,用遗传算法找到保持全局特性的聚类中心数目及初值作为FCM算法的初始值,继续进行局部搜索从而确保求得全局最优解.同时,模糊聚类能够获得更丰富的聚类信息,然而由于计算复杂度高,造成聚类时间冗长.用硬聚类的结果对模糊聚类初始值的选取进行指导,可以加速算法的实现过程.所以,该文把硬聚类和模糊聚类相结合,构造快速模糊c-均值算法,从而使算法速度得到了提高,推动了模糊聚类算法在大量数据聚类中的实际应用.最后,提出引入加权距离的模糊聚类方法.加权距离的引入,导致了两极分化,空间数据点之间,距离远的变得更远,距离近的变化不大,使得更易于聚类,分类清晰,得到很好的聚类效果.
其他文献
分布式测控系统是集计算机技术、微电子技术、网络技术、通信技术于一体的综合系统,在现实生活中具有广泛的应用需求。本文分析了无线转发系统的特点,借鉴现有的DCS技术,提
在Gartner《2017十大技术趋势》报告中指出万物互联(IoE:Internet of Everything)是今后科技的主旋律。万物互联(IoE)将人、数据和物体结合到一起使得网络连接变得更加相关,更
模式识别是研究如何在数据中对模式进行分类.它可以定义为经由不相关的细节背景提取出数据特征对输入数据进行分类的过程.本篇论文中提出了一个新的字符切割算法.算法依靠垂
在大型软件工程的开发过程中,为提高系统开发的效率、降低软件产品及其维护的成本、加快系统交付的速度,应将软件视为一种可重复利用的资源。以软件重用技术为基础的软件工程的
该文介绍了元搜索引擎的基本概念,讨论了影响元搜索引擎查询性能的几个方面的因素,并对影响元搜索引擎性能的成员搜索引擎的调度策略进行了深入研究,在此基础之上介绍了有关
随着现代设备管控技术的迅速发展,作为设备管控系统核心功能的实时数据处理技术也得到了很大地提升。虽然通用操作系统已经能够为数据处理功能提供良好的执行环境,但是它们不能
本文在分析和研究了空间数据模型的发展及特点之后,针对目前广泛使用的空间数据模型不能直观反映人们对现实世界的感知、忽视地理实体之间的语义拓扑关系、不足以表达一些较
Internet上分布着海量的信息,但由于这些信息内容没有更好地形式化表示,目前主要是提供给人使用的,计算机难以处理。为了将网上信息处理和利用尽可能地交给计算机自动完成,人们必
协议工程是协议开发质量保证的一个重要手段,其中协议一致性测试是协议工程的一个基础部分。协议一致性测试的核心部分是在协议规格和协议实现之间有一致性关系的情况下指导
本课题的主要研究内容和目的是为了适应无纸化考试的需要,研究与实现具备网络化、自动化、通用化的题库管理、试卷生成、网络考试、考试监控、自动阅卷、成绩管理等功能的