论文部分内容阅读
随着计算机技术的发展,电子文本信息迅速膨胀,如何有效地组织和管理海量信息并从中发现有价值的信息是信息处理面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以较好地解决信息杂乱问题。同时,文本分类也是信息检索、搜索引擎、文本数据库等领域的技术基础,有着广泛的应用前景。
本文首先对文本分类及其相关技术进行了回顾和分析,接下来结合关联规则挖掘,将文档视为事务,关键词视为项,提出了一种结合关联规则分析的文本分类方法,包括以下主要工作:
(1)讨论了频繁项集的重要性度量和分类规则的重要性度量。
(2)基于(1)提出了一种结合关联规则分析和频繁项集分析的文本分类方法,该方法能够发现大量的有用的分类规则,且发现的分类规则人易于理解。
(3)实现了一个基于(2)的文本分类原型系统,实验结果表明此方法有较高的准确率和召回率。