基于协同训练的半监督短文本分类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:gailuen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要的信息载体,短文本中蕴含的信息早期是通过人工标记的方式直接获取,但是人工标记的方式需要大量的专业技术人员参与,消耗了大量的人力物力,并且只能对少量的文本进行标记,而互联网上的文本数量非常庞大,因此人工标记的方式不适合互联网上大规模文本进行分类的需求。采用机器学习的方法对未标注样本进行标注,逐步成为互联网上文本信息处理的一种趋势,同时提高样本标记效率已经成为当前研究的热点。与人工标注的方法相比,使用机器学习技术对未标注样本的标注,不仅准确率高,而且算法非常稳定。半监督协同训练是方法目前机器学习中一种非常重要的文本分类方法。本文主要对基于协同训练的半监督短文本分类进行研究,主要包含以下几个方面的内容:1.对短文本分类问题进行分析,给出了基于协同训练的半监督短文本分类系统模型。短文本分类模型可以分成三个功能模块:预处理模块、训练模块和测试模块。预处理模块,主要是对非结构化的短文本进行处理,通过对短文本去除格式标记、分词、去停用词、特征提取、词频统计、文本向量化等一系列步骤得到结构化的数据集。训练模块,一方面是根据差异性原理构造分类器,使用分类器对未标注样本进行标注;另一方面使用训练样本集对分类器进行协同训练,从而得到不断优化的分类器。测试模块,使用测试样本集对分类器进行测试,验证协同训练方法的可行性和有效性。2.结合半监督协同训练,给出了短文本分类方法,进一步改进了特征提取方法和协同训练方法。(1)特征提取方法的改进。根据短文本中文字数量较少的特点,从词语之间语义联系的角度,来构造短文本中词语之间的邻接矩阵,然后通过邻接矩阵相似度的计算来构造一个无向图,再根据无向图的邻接度计算特征度,将特征度高的特征词进行提取。这种特征提取方法相比于传统方法兼顾了词语之间语义的相似关系,有助于对短文本进行有效分类。(2)协同训练算法改进。为了对未标注样本进行标注,通过多分类器“互助”方式训练分类器。在二分类问题中,对某个未标注样本进行标注如果三个分类器的标注结果相同,代表标注结果有较高的置信度,把标注样本放入到已标注样本集中;如果标注结果不同,那么必有两个分类器的标注结果相同,使用两个分类器的标注结果训练第三个分类器。在标注过程中,反复训练分类器,最终获得性能较好的分类器。3.利用互联网网站搜集到的短文本进行对比实验,验证了协同训练半监督短文本分类方法的有效性。通过选取新浪、搜狐和网易等各大网站搜集到的短文本帖子作为数据集,将本文改进后的方法与传统的短文本分类方法进行对比实验,通过评估指标准确率、召回率和F1值对本文分类方法进行评估,从而验证本文方法的可行性和有效性。因此,本文构建了基于协同训练的半监督短文本分类模型,给出了相应的分类方法,同时对短文本特征提取方法和半监督协同训练进行了改进,并将改进的方法与传统的方法进行了对比实验。实验结果表明,本文给出的方法能有效提高短文本分类的效率。
其他文献
医学图像分割技术是医学图像处理与分析领域的重要课题之一,也是近年来备受研究人员关注的热点问题。由于人体解剖结构的复杂性、组织器官形状的不规则性及个体之间的差异性,
二十一世纪以来,伴随着科学技术的迅速发展,人们每天都要处理大量的信息数据(例如图像、视频以及文档资料等)以便进一步地分析和研究。图像作为常用信息的载体之一,在人们接
伴随着互联网的快速发展与互联网技术的不断创新,社交网络日益成熟和完善。在众多的社交网络类型中,有一种以活动为媒介将线上与线下相结合的社交网络——活动社交网络(Event
内存交换技术几乎应用于所有的计算机系统,交换操作中频繁的外存访问是制约程序运行性能的一个重要因素。近年来,随着新型存储介质闪存的快速发展,越来越多的研究关注于使用闪存
视频跟踪是计算机视觉领域的一个重要研究方向,它融合了模式识别、图像处理、图像表征和计算机应用等相关领域的研究成果和先进技术,在智能监控、交通管制、人工交互、军事精
伴随当前三维快速原型技术的飞速发展及商业化,大量数字模型通过三维打印等技术完成实体化并被投入商业应用中,从而也带来了模型管理以及版权保护的需求。传统水印算法面向数字
近年来,数据密集型计算越来越得到相关学者的关注。数据密集型计算环境下的数据具有海量、高速变化、分布、异构、半结构化或非结构化的特点,传统的数据挖掘算法已经不能满足
当用户面对经过本体标注过的大量实例时,如何快速的挖掘出对用户有用的信息仍是研究人员迫切需要解决的问题。聚类作为一种无监督的分类方法是对大量实例数据处理的重要手段,但
随着科技的进步和社会的发展,机器人技术成为当今世界备受关注的前沿课题。与此同时,随着人类在非规整复杂地形的各种活动增多,以及对具有潜在危险区域或者人员无法进入区域
随着对算法运算速度要求的提高,一些用软件实现的算法已满足不了实时性的要求。因此,充分利用硬件电路的并行性和快速运行的特点,实现算法硬化,成为算法研究的一个新方面。本文工