基于关联规则的文本分类

来源 :北京大学 | 被引量 : 0次 | 上传用户:chenchen0513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,电子文本信息迅速膨胀,如何有效地组织和管理海量信息并从中发现有价值的信息是信息处理面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以较好地解决信息杂乱问题。同时,文本分类也是信息检索、搜索引擎、文本数据库等领域的技术基础,有着广泛的应用前景。   本文首先对文本分类及其相关技术进行了回顾和分析,接下来结合关联规则挖掘,将文档视为事务,关键词视为项,提出了一种结合关联规则分析的文本分类方法,包括以下主要工作:   (1)讨论了频繁项集的重要性度量和分类规则的重要性度量。   (2)基于(1)提出了一种结合关联规则分析和频繁项集分析的文本分类方法,该方法能够发现大量的有用的分类规则,且发现的分类规则人易于理解。   (3)实现了一个基于(2)的文本分类原型系统,实验结果表明此方法有较高的准确率和召回率。  
其他文献
本文研究了一类铁磁链方程在给定的初边值条件下的差分数值解,就给出的一系列差分格式,证明其数值解的收敛性和稳定性。铁磁链方程在铁磁学、电磁学、材料学中有着十分重要的应
高中阶段的学生在英语学习中已经完成了一定程度的知识积累,很多学生经过多年的英语学习已经具备了相当的词汇量,英语阅读能力、写作能力都有很大程度的提升。然而,仍然有很
朱仙庄煤矿隶属淮北矿业(集团)有限责任公司,位于安徽省宿州市东13公里处,井田面积26.3平方公里,地表为平原。宿灵公路贯穿矿区,专用运煤铁路与京沪铁路连接,交通运输便 Zhu
本文讨论一种特定情形下的连续时间均衡定价方法。通过定义随机过程的Gaussian Copula,从而利用多维布朗运动的相关性来刻画一般风险过程的相关性。满足这一Gaussian Copula的
随机序列的统计监测问题一直是统计学领域的研究的一个热门课题,目前它不仅在工业质量控制领域中有广泛的应用,而且在金融,社会科学,生物技术,计算机网络等领域也有大量的应用.随
本文首先利用微分方程定性理论和动力系统分支方法对广义Camassa-Holm方程ut+2kux-uxxt+au2ux=2uxuxx+uuxxx,的孤立波解进行研究,获得了光滑孤立波解和尖孤立波解的显式表达式
蚁群算法(Ant Colony Algorithm简称ACA)是最近几年才提出来的一种新型的模拟进化算法,它来源于对真实蚂蚁群体寻找从巢穴到食物源最短路径方法的模拟,体现了真实蚁群的协作过程
1964年,Sharp等人提出了著名的资本资产定价模型(简称为CAPM)。该模型主要适应于当资产收益服从正态分布或资产收益二阶矩存在时的资本资产定价。然而,实证分析显示资产收益分布
由于辛流形在四维流形研究中的突出作用,对辛流形的粘贴就成为一种构造辛流形的有力工具。因此,对于带边的辛流形和它们的边界--切触流形,尤其是它们之间的关系就需要更深的了解
法国著名生理学家贝尔纳说:“良好的方法使我们更好地发挥运用天赋的才能,而拙劣的方法则可能阻碍才能的发挥.”这对于我们的英语教学有一定的启示.我们要注重讲究教学方法,