基于聚类算法的KNN文本分类系统研究与实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:kakayang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和Internet高速发展,如何快速准确地获取自己所需的信息已经成为目前我们迫切需要解决的问题之一。文本分类和聚类是信息处理的重要技术,因而也成为了目前研究的热点。本文主要研究了文本分类和聚类的相关算法,分析了其中的相关技术以及难点。   首先,介绍了文本分类中所涉及的主要技术:文本表示、特征选择与抽取、分类算法和分类性能的评测。其次,着重剖析了KNN文本分类算法,指出其优点及不足。为了克服KNN分类器速度慢的缺陷,提出采用文本聚类对训练集样本库进行合并,将若干样本合并为少量样本中心来减少计算量。再次,介绍了几种常见的文本聚类算法。对基于划分的分类算法:k-means和k-medoids进行了深入的分析与研究,发现k-means等基于划分的聚类算法对聚类初始点选择十分敏感。应用较多的随机选取聚类初始点的方法虽然简单,但是聚类结果很不稳定,时间开销大。针对这一点,本文提出了基于文档相似度的初始化聚类中心点算法,随后通过实验验证了其优越性,并采用这种基于文档相似度的k-means聚类算法对训练集样本库进行合并。最后,本文设计并初步实现了一个基于聚类算法的快速KNN文本分类系统,通过实验验证了采用文本聚类对训练集样本库进行合并,将若干样本合并为少量样本中心,可以在保证分类准确率的情况下,大幅提高KNN文本分类器速度。
其他文献
本文分析了国内外陶瓷划痕检测的发展和现状,介绍了一种嵌入式陶瓷划痕自动检测装置。该检测装置设计以ARM处理器为核心,先通过CMOS摄像头采集陶瓷图像,将其存储在ARM存储器
随着信息技术的高速发展和普及,远程监控系统成为了便捷人类生产生活、实现时间和空间跨越的有效工具。人们通过远程监控系统可以了解到远端现场的设备运转信息、环境信息,能
新生儿疼痛研究近年来逐渐被人们所关注,医学界研究证实,反复的疼痛刺激会对新生儿产生一系列近期和远期的不良影响;又由于新生儿不能自述疼痛的感受,由此产生了一些针对新生儿疼
随着城市进程化的加快,人们生活水平大幅度提升,机动车尤其是私家车的拥有量和道路的交通量都急剧增加,随之而来的城市交通拥挤、交通事故、能源短缺和环境污染等诸多问题也日益
在现代战争中,制导飞行器武器能够在远距离高精度作战,内置的制导控制系统使其能够精确地打击千里之外的目标。本课题主要是研究和设计了一套基于两块TMS320F28335DSP芯片作
雷达目标信号检测和估计是雷达信号处理领域的核心内容,传统的雷达目标信号检测和参数估计是建立在低分辨率雷达基础上,将目标作为点目标。为了提高目标检测能力和测量精度,
视频监控系统是安全防范系统的组成部分,它以其直观、方便、信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也
详细综述了布里渊分布式光纤传感技术的研究现状;从理论和实验上研究了布里渊频移和强度与光纤温度和应变的依赖关系;设计了一套可实现温度和应变同时测量的外差检测布里渊分
图像增强是图像处理领域的经典课题,作为重要的预处理过程,其研究不断得到深入。现今,随着彩色图像应用的日益广泛,对彩色图像增强技术的研究已变得日趋重要。 本文按照彩色图
合成孔径雷达(SAR)是一种能够在任何时候、任何天气环境下不间断进行工作的高分辨率雷达,被广泛应用于国民生活和国防军事的各个领域。但是因为其特殊的相干成像机制,成像后