多类别科技文献自动分类系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：jiqt001

【摘要】

：

随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技

【作者】

：

陈玉芹

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2008年期

【关键词】

：

文本自动分类文本表示特征选取支持向量机 k近邻

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技文献等文本信息进行有效组织和管理通常都需要对文本进行自动分类。目前常用的文本分类方法主要有支持向量机(Support Vector Machine, SVM)和k近邻(k-Nearest Neighbor, kNN),然而这些方法存在一些不足之处:支持向量机主要针对两类分类问题,不能直接应用于多类分类,且该方法应用于大数据集时训练速度较慢;k近邻方法对于样本容量较小的类域容易产生错分,且k的取值不容易确定。针对以上问题,提出了支持向量机和k近邻相结合的多类别分类方法(Multi-class SVM-kNN, MSVM-kNN),该方法首先采用支持向量机构建分类器,在该过程中利用增量学习方法提高了训练速度;然后针对不可分情况,采用k近邻方法来处理。另外,还对多类别多标签分类方法及自动分类的其他相关技术进行了研究,包括特征取、特征项权重计算等。通过对文本分类相关技术的研究,根据“基于语义的科技文献检索与共享平台SemreX”的实际需要,设计并实现了多类别文献自动分类系统MALC(Multi-class Automatic Literature Categorization System)。使用20-Newsgroups数据集和ACM数据集进行了测试。MSVM-kNN方法在ACM数据集上的准确率、召回率和F-measure值分别为:90.18%、88.79%、0.89,而所测得的k近邻、支持向量机的这三个性能指标分别为:81.64%、77.78%、0.8,86.11%、84.44%、0.85。测试结果表明:与传统的分类方法相比,该方法分类效率较高,且有较高的准确率、召回率和较好的稳定性。

其他文献

基于伪Zernike矩抗几何攻击的水印算法研究

多媒体技术和网络技术的飞速发展,使数字产品的安全问题成为现阶段重要而又富有挑战性的研究课题。数字水印技术是一种实现数字产品版权保护的有效方法。目前数字水印的大多

学位

数字水印几何攻击伪Zernike矩矩的归一化SIFT

图像处理技术在开关电弧中的应用

低压开关电器在闭合和分断负载电气回路时，在电器触头的间隙会产生开关电弧。电弧燃烧时会在极短的时间内达到非常高的温度，影响电器产品的性能，尤其对触头的侵蚀作用会降低产品

学位

图像处理开关电弧低压开关电器高温特性三维温度场三维重建图像增强算法

面向上下文感知计算的反射技术研究

随着无线网络和移动终端的发展,面向上下文感知计算的研究越来越受到重视。在上下文感知计算的研究过程中,移动设备如何能自动适应环境变化而对自身状态做出调整是一个重要的

学位

上下文感知反射自适应本体

基于上下文感知的流程管理门户

随着Web技术的普及和迅速发展,工作流技术与Internet的结合已成为必然发展方向。而企业信息门户在访问控制,系统集成,单点登录,个性化方面所体现出来的优势,使它成为构建工作

学位

规则引擎门户上下文感知工作流

这几个数字说明了什么?

1947年,我在毛泽东主席身边工作。他对我说:“一天不看报是小错,十天不看报是大错”。全国解放后,环境安定了,我订了几份报纸和 In 1947, I worked beside Chairman Mao Zed

期刊

领导干部数字说明对我说消极腐败现象斗争形势腐朽没落党的指导思想革命队伍军政学院《参考消息》

后资源库建设时代资源应用的现状与对策

21世纪初,教育部先后出台了多个关于高等职业教育改革与发展的文件,要求全国高职院校顺应互联网时代的发展要求,利用“互联网+”实现教育手段的信息化与教学资源的共享化.201

期刊

后资源库应用现状对策

摆正自己的位置

写这个题目,源于两个人的触动:一个是牛玉儒。在接受呼和浩特电视台的专访时,记者问他,作为呼市这个“大家庭”的家长,新的一年有什么新的打算?牛玉儒温和而坚决地纠正记者:

期刊

牛玉儒收受贿赂角色错位谋私利惠明密切联系群众角色颠倒杭州市余杭区造福一方窝案

高校开展大学生职业指导工作的探讨

本文针对高等院校开展大学生职业指导工作的问题进行分析,从职业指导理念、职业指导理论、职业指导实施、职业指导实践活动等方面提出了对策,以期为有效的职业指导工作提供借

期刊

高等院校职业指导工作探讨

Surgical management of hepato-pancreatic metastasis from renal cell carcinoma

AIM To investigate the outcomes of liver and pancreatic resections for renal cell carcinoma(RCC) metastatic disease. METHODS This is a retrospective, single cen

期刊

metastasismetastaseshepatorecurrencemetastaticretrospectivemedianpostoper

把人民群众利益放在第一位

构建社会主义和谐社会是一个复杂的社会系统工程,必须统筹兼顾,突出重点,坚持把群众的利益放在首位,着力解决好群众最关心、最直接、最现实的利益问题,力求在解决突出矛盾和

期刊

社会系统工程群众利益社会治安治安综合治理社会福利经济发展水平思想政治工作物质文化收人分配经济增长方式

多类别科技文献自动分类系统

其他学术论文