论文部分内容阅读
TFIDF是常用的特征提取方法,但是该方法存在着很多不足。首先这个方法忽视了如果某词条仅仅在一个类别的文档集中存在次数多,在其他类别中存在次数少,则能说明该词条可以很好地反映类别特征。再者TFIDF忽视了特征与类别的关系。本文提出了改进的TFIDF策略,并结合简单距离向量分类方法与传统的TFIDF进行分类比较,得到了很好的分类效果,试验证明了其可行性。