基于信息粒度原理的文本分类方法的研究

来源 :北京工业大学 | 被引量 : 21次 | 上传用户:huaxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中纷繁芜杂的信息进行合理的组织与分类。论文以网络文本信息处理为背景,从理论和应用的角度对文本信息的聚类、分类方法进行了较为深入的研究。研究的主要内容包括文本信息的描述与特征提取;基于信息粒度原理的文本聚类/分类方法;概念空间的性质及其在文本聚类、分类中的应用等。论文取得了以下研究成果: 论文首先设计了自动文本分类系统的总体方案,在总体设计的框架下实现了基于类中心分类法的文本分类系统,验证了总体设计的正确性和可行性。 论文在研究文本信息描述和特征提取方法的基础上,设计、实现了一种简单实用的特征提取算法。该算法在文本分类系统中取得了较好的效果。论文研究了文本描述的权重计算方法,通过权重的迭代收敛性质引入了“概念空间”的概念,推导了概念空间中文本表示和降维的方法及相关性质。 论文设计并实现了一个基于信息粒度原理的文本聚类/分类系统,从理论和应用两方面对基于信息粒度原理的文本聚类/分类方法进行了研究。论文运用信息粒度原理,分析了文本聚类结果与专家先验知识的不一致性的本质,在非均匀粒度下,统一了专家的先验知识和特征空间中文本的客观描述,从而大大提高了文本分类的正确率。 论文在概念空间中改进并实现了基于信息粒度原理的文本聚类/分类算法,对概念空间的性质和特点进行了研究,利用概念空间的正交性,来克服词频空间特征项之间的相关性,利用概念空间的特征提取性质,来滤除噪声、降低特征维数,从而提高了分类系统的效果。实验结果表明,在概念空间中应用基于信息粒度原理的文本聚类/分类方法,无论是分类效率还是分类正确率都高于词频空间中的结果,有效地改善了文本分类系统的性能。 论文针对文本分类中的兼类问题,设计了一种将模糊逻辑与基于信息粒度原理的文本聚类/分类方法相结合的模糊模式分类算法。 论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究成果对文本聚类/分类方法的研究具有参考价值。
其他文献
该文试图对现场总线的一个显著特点—互操作性进行深入探讨和研究,重点是研究其中的一项关键技术—互操作性测试技术.该文首先对互操作性进行了深入探讨,包括其定义,分类和度
该文主要阐述了交警指挥监控系统的功能组成和实现原理.并在分析122接警处警/GIS系统、电子警察系统、视频监控系统等三个系统的功能结构基础上,提出了集成于子系统之上的指
随着我国不断加剧的人口老龄化现象,落后的养老产业已经无法满足日益增长的养老需求。因而,对现有有限资源的最大化利用就成为亟待解决的重要问题。应用决策树分类算法,建立
锌钡白干燥燃烧窑炉过程控制系统是针对广州华立颜料有限公司的锌钡白(俗称“立德粉”)产品在人工控制下的质量和产量并不理想,希望对立德粉关键生产设备干煅窑炉生产过程进行
基因的信息传递和功能实现是一个精巧而有序的过程,选择性剪接和复杂疾病是这个过程中两个重要的生命现象,对它们的研究将极大地增进我们对基因调控、基因网络乃至生命本质的
模式识别是人们日常生活、工作、学习中的基本活动,须臾不可或缺。视觉是人类最完善的感知系统,图像载体可以提供多维信息,在相当多的情况下是任何其他信息形式不能替代的。因此
在现有的载波恢复中,占主导地位的仍是70年代提出的利用锁相环进行载波的相和频率的捕获和跟踪.锁相环的捕获带宽有限,捕获时间不短的缺点限制了它的使用范围.为了克服上述弊
该论文,在对已有解法进行归结综述的基础上,引入了区段混合能、区段混合能矩阵以及精细积分的概念,采用迭代法及逆时间积分的方法,对代数黎卡提方程进行了详细的研究,从理论
在简要介绍调压铸造工艺流程的基础上,本文提出了TY-1型调压铸造控制系统的设计方案。在手动控制系统方面,论文中主要叙述了手动控制电路的设计,包括电磁阀控制电路的设计、期望
该文首先介绍了基于数学形态学的多尺度图象分割方法,然后对鲁棒性运动估计进行了讨论,结合前两部分的工作,最后给出了一个时空域运动估计和分割的框架.该文把形态学和矢量数