面向小样本的文本分类模型及算法研究

来源 :电子科技大学 | 被引量 : 14次 | 上传用户:iserce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据具有高维稀疏的特征,并且数据量也在爆发式增长,这给传统的机器学习算法带来了许多困难,具体表现在以下两方面:其一,对于分类精度较高的分类算法,如支持向量机和人工神经网络等,大多都因为训练效率、计算资源消耗等瓶颈而无法成功应用于海量数据挖掘和在线分类问题;其二,对于具有线性时间复杂度的分类算法,如质心分类器,朴素贝叶斯和逻辑回归等,其分类精度往往较低。因此,本文针对以上问题展开了一系列研究,研究内容主要包括小样本数据集的提取方法和小样本数据集的分类方法。本文中所指的“小样本”是维度小、数量小的样本。首先,本文研究的小样本提取方法主要包括特征选择方法和实例选择方法,以上方法可以精简海量数据集,从而有效解决以上第一类问题;其次,本文研究了面向小样本的线性分类模型,试图从小样本数据集上学习高精度的分类器,从而有效解决以上第二类问题。本文的主要研究内容和创新点如下:提出了一种新的统计指标(LW-index)的方法来评价特征子集,进而评估降维算法。本文所提出的方法是一种“经典统计”的方法,基于特征子集计算经验估计来评价特征子集的质量。传统的特征子集评估是指将给定的特征子集分解为训练集和测试集,训练集用于估计分类模型的参数,而测试集用于估计模型预测的性能。然后,平均多个预测的结果,即交叉验证(Cross-Validation,CV)。然而,交叉验证评估往往是的是非常耗时的,需要很大的计算开销。实验结果表明本文提出的方法在降维算法评价结果上基本与五折叠交叉验证方法一致,但计算时间开销分别是采用SVM(Support Vector Machine)和CBC(Centroid-Based Classifier)分类器的1/10和1/2倍。提出了一种基于序列前向搜索(Sequential Forward Search,SFS)策略的特征选择算法SFS-LW。文本分类中的封装式特征选择算法(Wapper)筛选出的特征对于分类有较高的价值,但是其评价过程伴随着极大的时间复杂度。为此,本文将封装式特征选择算法中常用的前向序列搜索策略(SFS)与LW指标相结合,提出了一种新的过滤式算法SFS-LW。实验结果表明SFS-LW具有与Wapper方法近似的分类精度,但时间复杂度则有数倍的改善,其时间消耗接近于现有的过滤式方法。提出了一种线性的自适应支持向量选择算法(Shell Extraction,SE)。针对传统分类算法无法应用于海量数据集的问题,本文基于向量空间中样本分布密度不均衡的特点,研究了向量空间中支持向量的识别方法,从而实现了大规模数据集缩减和噪声过滤。传统的实例选择算法大多基于最近邻或聚类的方法,由于此类方法时间复杂度高,同样面临无法应用于海量数据集的问题。实验结果表明本文提出的SE算法不仅在精度上超过了现有算法,并且其执行效率远高于现有的实例选择算法。提出了一种新的分类模型,即引力模型(Gravitation Model,GM)。文本分类中基于质心的分类算法凭借其简单高效,已成为应用最广泛的文本分类算法之一。然而,质心分类算法的精确度过于依赖训练样本的分布,当样本分布偏斜时,质心分类模型不能很好地拟合训练样本数据,因而分类效果不理想。本文提出的GM模型可以有效解决质心分类模型欠拟合问题,在模型训练阶段,GM为每一个类别定义一个表征该类样本分布的质量因子,该因子可从训练样本中学习得到;在模型测试阶段,GM将未知样本划分到对其最大引力的特定类别中。提出了一种基于算术平均质心(Arithmetical Average Centroid,AAC)与随机质量因子学习算法(Stochastic Learning Mass,SLA)相结合的GM模型学习算法AAC-SLA。实验结果表明AAC-SLA算法在精度上持续优于原质心分类算法,而且达到了与目前最好的质心分类器类似的性能,同时具有比它更稳定的优势。提出了基于最小球算法(Minimum Enclosing Ball,MEB)与随机质量因子学习算法(SLA)相结合的GM模型学习算法MEB-SLA。MEB算法可以有效避免类别中样本随机分布给算术平均质心位置带来的影响,实验结果表明MEB-SLA算法要优于AAC-SLA算法,并且在小样本数据集上它们都超过了向量机。最后,本文利用提出的SFS-LW算法和SE算法生成了特征维数和样本数量同时为原数据集1/10倍的小样本数据集,并采用小样本数据集训练AAC-SLA、MEBSLA和SVM算法,实验表明AAC-SLA算法和MEB-SLA算法的学习/分类精度在大部分数据集上只有轻微下降,并持续超过了SVM算法。本文的研究结论是:(1)在中/小规模的数据集学习任务中可直接采用MEB-SLA算法;(2)在大规模的数据集学习任务中可采用SE与AAC-SLA相结合的算法。
其他文献
基于变分水平集的活动轮廓模型(Active Contour Model)是图像分割技术的热门理论,由于这种图像分割算法综合了人们对各种图像数据的解释和认识,更接近人类的视觉理解,因此得
作为保障信息安全的重要机制,身份认证技术能有效鉴别通信参与者的真实身份,是实现信息系统机密性和完整性的重要手段。然而,在不同的应用环境中,参与身份认证过程的通信实体
随着图像拍摄设备、智能手机和互联网技术的发展,纹身图像的采集、传播变得越来越容易。伴随着突发事件的发展,纹身同其它生物特征一样,成为对罪犯嫌疑人识别的有力证据。如
红外显微成像技术是近年来发展迅猛的一项新兴微区分析技术,具有较高的空间分辨率和光谱分辨率,能够在不破坏样品原始结构前提下探测样品表面的化学组成及其分布信息,因而被