【摘 要】
:
随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技
论文部分内容阅读
随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(Support Vector Machine, SVM)和k近邻(k-Nearest Neighbor, kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-class SVM-kNN, MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-class Automatic Literature Categorization System)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。
其他文献
多媒体技术和网络技术的飞速发展,使数字产品的安全问题成为现阶段重要而又富有挑战性的研究课题。数字水印技术是一种实现数字产品版权保护的有效方法。目前数字水印的大多
低压开关电器在闭合和分断负载电气回路时,在电器触头的间隙会产生开关电弧。电弧燃烧时会在极短的时间内达到非常高的温度,影响电器产品的性能,尤其对触头的侵蚀作用会降低产品
随着无线网络和移动终端的发展,面向上下文感知计算的研究越来越受到重视。在上下文感知计算的研究过程中,移动设备如何能自动适应环境变化而对自身状态做出调整是一个重要的
随着Web技术的普及和迅速发展,工作流技术与Internet的结合已成为必然发展方向。而企业信息门户在访问控制,系统集成,单点登录,个性化方面所体现出来的优势,使它成为构建工作
1947年,我在毛泽东主席身边工作。他对我说:“一天不看报是小错,十天不看报是大错”。全国解放后,环境安定了,我订了几份报纸和
In 1947, I worked beside Chairman Mao Zed
21世纪初,教育部先后出台了多个关于高等职业教育改革与发展的文件,要求全国高职院校顺应互联网时代的发展要求,利用“互联网+”实现教育手段的信息化与教学资源的共享化.201
写这个题目,源于两个人的触动:一个是牛玉儒。在接受呼和浩特电视台的专访时,记者问他,作为呼市这个“大家庭”的家长,新的一年有什么新的打算?牛玉儒温和而坚决地纠正记者:
本文针对高等院校开展大学生职业指导工作的问题进行分析,从职业指导理念、职业指导理论、职业指导实施、职业指导实践活动等方面提出了对策,以期为有效的职业指导工作提供借
AIM To investigate the outcomes of liver and pancreatic resections for renal cell carcinoma(RCC) metastatic disease. METHODS This is a retrospective, single cen
构建社会主义和谐社会是一个复杂的社会系统工程,必须统筹兼顾,突出重点,坚持把群众的利益放在首位,着力解决好群众最关心、最直接、最现实的利益问题,力求在解决突出矛盾和