论文部分内容阅读
本文介绍了一种基于信息熵的文本特征加权算法—TF/IDF (MaxEnt)算法,用以提高文本分类器的分类性能.该算法将信息熵的概念引入到传统的文本特征加权算法—TF/IDF算法中,避免了传统的TF/IDF算法忽略特征项在类内和类间分布情况的问题.本文详细分析了TF/IDF (MaxEnt)算法,并在两类典型的文本数据集上与传统的TF/IDF算法进行了对比和分析.实验结果表明:TF/IDF (MaxEnt)算法在文本分类精度方面优于传统的TF/IDF算法.