多类别科技文献自动分类系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jiqt001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(Support Vector Machine, SVM)和k近邻(k-Nearest Neighbor, kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-class SVM-kNN, MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-class Automatic Literature Categorization System)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。
其他文献
多媒体技术和网络技术的飞速发展,使数字产品的安全问题成为现阶段重要而又富有挑战性的研究课题。数字水印技术是一种实现数字产品版权保护的有效方法。目前数字水印的大多
低压开关电器在闭合和分断负载电气回路时,在电器触头的间隙会产生开关电弧。电弧燃烧时会在极短的时间内达到非常高的温度,影响电器产品的性能,尤其对触头的侵蚀作用会降低产品
随着无线网络和移动终端的发展,面向上下文感知计算的研究越来越受到重视。在上下文感知计算的研究过程中,移动设备如何能自动适应环境变化而对自身状态做出调整是一个重要的
随着Web技术的普及和迅速发展,工作流技术与Internet的结合已成为必然发展方向。而企业信息门户在访问控制,系统集成,单点登录,个性化方面所体现出来的优势,使它成为构建工作