论文部分内容阅读
随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(Support Vector Machine, SVM)和k近邻(k-Nearest Neighbor, kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-class SVM-kNN, MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-class Automatic Literature Categorization System)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。