符号聚类新方法的研究及应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:zbwang12315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之间的相似程度即做到”物以类聚”,其目的是要挖掘出个体集合的信息。目前的常用聚类方法大致可以分为层次聚类、划分聚类、基于模型的聚类、基于密度的聚类、基于网格的聚类等。聚类技术已经被广泛得应用于分类学、生物信息学、商业、医学、图像处理等领域。传统的聚类技术处理的对象都是连续的数值型数据(我们称之为传统数据,其中包括模糊数据)。但是,现在我们发现,在很多场合中我们无法用传统的数据来很好得表达信息,例如物体的颜色(或许你会认为,可以用不同的数值来代表不同的颜色,但是那样的数值也仅仅是不同颜色的代码,已不再是传统意义上的数值,自然不能用传统的数值方法来处理)、用户的反馈、某个地区某段时间内的气温范围等等,这些数据不像传统的数据那样有序、单值、连续,而且有时候同一个体的不同特征的取值之间存在着一定的关系,我们把这类数据统称为符号数据。随着符号数据越来越多得出现,产生了专门分析处理符号数据的领域——符号数据分析(SDA,Symbolic Data Analysis),而聚类是其中重要且不可替代的分支。符号聚类分析就是研究如何将传统聚类中的技术引入符号数据分析中,并且在需要的情况下创造出符合符号数据特性的新聚类理论和方法。本着这个原则,本论文主要针对三种常见的符号数据——名词性数据、区间数据、混合数据(即一部分特征是符号特征,一部分特征是传统特征),在前人工作的基础上,做了一些研究改进。对于名词性数据,过去常用Hamming Distance来简单度量,但是Hamming Distance太粗糙,不能充分挖掘隐藏在数据中的信息。本论文中采用了智能优化算法中粒群优化算法(PSO,Particle Swarm Optimization),通过训练得到适合于对应数据集的距离公式。层次聚类的实验结果表明了,在度量名词性数据上,通过PSO学习得到距离要优于简单的Hamming Distance。对于区间数据,我们采用了相互距离(MD,Mutual Distance)的概念,给出了一个适用于区间数据的相互距离公式,并在此度量的基础了,引进了最新的聚类方法——相似性传播聚类(APC,Affinity Propagation Clustering),避免了符号聚类中心如何表示的问题。最后的实验证明了我们的算法要优于基于Euclidean Distance的C均值算法(CM,C-means)。对于混合数据,由于之前的混合数据聚类中没有考虑到不同的特征对于聚类的贡献不一样。因此本文在对混合数据进行模糊C均值聚类(FCM,Fuzzy C-means)时,考虑特征权重问题,推导出适用于混合数据的带特征权重的模糊C均值算法。最后的实验也表明了考虑特征权重的合理性和必要性。
其他文献
语音处理技术有着广泛的应用领域,歌声合成是语音处理技术的一个新的应用领域。对歌声合成方法的研究在谱曲作词、唱片制作、娱乐等领域都有很大的应用价值,虽然国际上对歌声
随着国防军队建设的发展,信息化建设凸显其重要性。战场各种信息的变化越来越快,也越来越多样化。军队决策者在尽可能短的时间内依据有效底层数据做出正确决断,将影响整个部
不同软件系统中相近似的代码模块的出现,是理解和重构软件系统的一个重要出发点。就软件工程的角度而言,相似代码模块的检测可以更好的检验系统;可以方便对软件系统进行重构;
近年来,计算机视觉方面的研究越来越受到计算机科学家们的重视,尤其是低阶视觉问题的一些基本问题,例如:图像的超分辨率,图像的重构,消除噪声等。同样在现实生活中,低阶视觉
本论文是基于人脸识别与移动检测的视频监控系统而完成的,为了在视频中自动对人脸进行实时的检测、识别,以及对重点监控区域的移动进行检测。本文的主要研究内容为:利用人脸
根据数据传输模式的不同,无线传感器网络可以分为事件驱动型无线传感器网络、周期性采样型无线传感器网络和基于查询的无线传感器网络。课题来源国家自然科学基金。针对事件
医学图像三维可视化是科学可视化的一个重要研究方向,而直接体绘制技术作为医学图像可视化的关键技术近年来发展迅速,受到国内外学者的广泛关注。直接体绘制技术在绘制时不需要
基础地理空间信息在能源、交通、环境、国土规划等多个应用领域中发挥着越来越重要的作用。由于受空间信息应用领域、编制和管理空间信息数据所采用的应用软件以及各应用部门
Kalman滤波是一种实时线性递推算法,计算过程简单,有迭代的优点,特别适用于计算机在线估算。它已成功地应用于空间技术、潜艇和飞行器的导航与定位,以及火力控制系统等方面;在工业
IPv4协议是目前因特网互联技术公认的标准,然而由于近几年IPv4互联网规模的不断增大以及应用范围不断拓展,它在地址数量,移动性,服务质量和安全性等方面所具有的局限性越来越