SVM文本分类中基于法向量的特征选择算法研究

被引量 : 0次 | 上传用户:wangxingkun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,文本分类已经成为了组织在线信息的核心任务之一,并且成为了许多应用中的关键架构。相对于其他学习算法,SVM在文本的分类中表现出了更优异的性能。在采用SVM算法的文本分类中,由于文本所表征的向量空间维数通常非常巨大,因此在训练过程中将耗费大量的系统资源。在资源受限的情况下,往往无法直接在文本原始的空间维数上进行处理。在此情况下,引入有效的特征选择算法就显得相当的必要。文本介绍了一种基于法矢量权重的特征选取方法,并将此方法应用于基于SVM的中文文本分类。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著的减少特征空间的维数,进而提升系统的资源利用效率。本文研究的关键技术包括:第一,为了描述SVM训练过程中对计算资源的消耗,引入“稀疏度”的概念。此处,稀疏度指得是每一文本样本所表征的矢量中非零特征项的平均统计数。文档矢量的稀疏度直接影响计算资源的开销,这里的资源包括稀疏矢量所消耗的存储资源和进行运算所耗费的时间。第二,介绍了一种基于法矢量权重的特征选取方法。基于法向量权重的特征提取方法需要选取训练数据集的子集,预训练得到SVM模型,将法向量权重作为特征项的评估指标,再以此作为特征排序的依据。第三,研究在计算资源有限的条件下,使用特征选择算法增保留部分特征并保留尽可能多的训练文档,和减少训练文档数并保留尽可能多的文本特征数两种情况下的文本分类性能。第四,研究对于线性SVM分类器,选用基于法向量的特征选择算法,和传统的基于几率比和基于信息增益的特征选择算法,对文本分类性能的影响。实验证明,对于线性SVM分类器,相比与保留全部的特征而只保留部分训练文档,使用特征选择算法保留部分特征而相应的保留更多的训练文档能够获得更好的特征性能,从而为在资源受限情况下,特征选取算法的使用提供有力的理论依据。同时,比较基于法向量的特征选择算法,基于几率比和基于信息增益的特征选择算法下的分类性能,证明了对于线性SVM分类器,基于法向量的特征选择算法能够获得最好的分类性能。基于法向量的特征选择算法可以在较大幅度减少计算资源消耗的同时基本维持所得到的分类器性能。从而在资源受限的条件下,提供了一种SVM文本分类的解决途径。
其他文献
随着P2P技术和交互式视频等业务的蓬勃发展,1M、2M带宽的DSL网络已经逐渐无法满足人们的需求。为此,不少人提出了“光进铜退”的发展策略,用光信号来代替电信号进行传输。由
基于对城市化真谛的理解,在论证城市化的二重性和城市集聚效应的内生性的基础上,针对中国城市化过程中存在的化地不化人的弊病,在对比"老浦西"和"新浦东"城市化机制及其绩效
宝石学中的优化处理和其鉴定方法一直是个热门话题,本义采用了全新的镀膜手段“高频溅射法”在多种宝石晶体表面镀上二氧化锆膜层,以此提高宝石表面光泽,同时修复宝石表面轻
实践的发展与大学生主体意识的加强,迫切需要创新高校思想政治教育。高校思想政治教育创新,首先要从理念创新入手,因为理念创新具有统领性、基础性。思想政治教育的对象是人,
文章分析了中外合资企业的3种管理模式类型,即中外合资双方共同管理型模式,一方为主型的管理模式和委托管理型模式。认为委托管型管理模式是比较合理的,它可以解决中外双方在
随着Internet技术的发展,以网络为依托的网上银行业务日益普及,然而,近年来重大的网上银行盗窃案例层出不穷,网上银行的安全逐渐成为人们关注的焦点。网上银行已经经过了很长
金属型铸造是一种重要的镁合金成型方式,但现在没有合适的镁合金金属型铸造涂料。本文致力于镁合金金属型铸造涂料的研究,遴选合适的耐火粉料、悬浮剂和粘结剂,并分析耐火粉
用970CRT荧光光度计测定了番茄红素在正己烷、乙酸乙酯、四氢呋喃、氯仿、丙酮和苯等6种溶剂中的荧光光谱以及番茄红素在四氢呋喃溶液中不同浓度下的荧光光谱。对所测光谱分