论文部分内容阅读
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要的信息载体,短文本中蕴含的信息早期是通过人工标记的方式直接获取,但是人工标记的方式需要大量的专业技术人员参与,消耗了大量的人力物力,并且只能对少量的文本进行标记,而互联网上的文本数量非常庞大,因此人工标记的方式不适合互联网上大规模文本进行分类的需求。采用机器学习的方法对未标注样本进行标注,逐步成为互联网上文本信息处理的一种趋势,同时提高样本标记效率已经成为当前研究的热点。与人工标注的方法相比,使用机器学习技术对未标注样本的标注,不仅准确率高,而且算法非常稳定。半监督协同训练是方法目前机器学习中一种非常重要的文本分类方法。本文主要对基于协同训练的半监督短文本分类进行研究,主要包含以下几个方面的内容:1.对短文本分类问题进行分析,给出了基于协同训练的半监督短文本分类系统模型。短文本分类模型可以分成三个功能模块:预处理模块、训练模块和测试模块。预处理模块,主要是对非结构化的短文本进行处理,通过对短文本去除格式标记、分词、去停用词、特征提取、词频统计、文本向量化等一系列步骤得到结构化的数据集。训练模块,一方面是根据差异性原理构造分类器,使用分类器对未标注样本进行标注;另一方面使用训练样本集对分类器进行协同训练,从而得到不断优化的分类器。测试模块,使用测试样本集对分类器进行测试,验证协同训练方法的可行性和有效性。2.结合半监督协同训练,给出了短文本分类方法,进一步改进了特征提取方法和协同训练方法。(1)特征提取方法的改进。根据短文本中文字数量较少的特点,从词语之间语义联系的角度,来构造短文本中词语之间的邻接矩阵,然后通过邻接矩阵相似度的计算来构造一个无向图,再根据无向图的邻接度计算特征度,将特征度高的特征词进行提取。这种特征提取方法相比于传统方法兼顾了词语之间语义的相似关系,有助于对短文本进行有效分类。(2)协同训练算法改进。为了对未标注样本进行标注,通过多分类器“互助”方式训练分类器。在二分类问题中,对某个未标注样本进行标注如果三个分类器的标注结果相同,代表标注结果有较高的置信度,把标注样本放入到已标注样本集中;如果标注结果不同,那么必有两个分类器的标注结果相同,使用两个分类器的标注结果训练第三个分类器。在标注过程中,反复训练分类器,最终获得性能较好的分类器。3.利用互联网网站搜集到的短文本进行对比实验,验证了协同训练半监督短文本分类方法的有效性。通过选取新浪、搜狐和网易等各大网站搜集到的短文本帖子作为数据集,将本文改进后的方法与传统的短文本分类方法进行对比实验,通过评估指标准确率、召回率和F1值对本文分类方法进行评估,从而验证本文方法的可行性和有效性。因此,本文构建了基于协同训练的半监督短文本分类模型,给出了相应的分类方法,同时对短文本特征提取方法和半监督协同训练进行了改进,并将改进的方法与传统的方法进行了对比实验。实验结果表明,本文给出的方法能有效提高短文本分类的效率。