基于Word2Vec语言模型与图核设计的文本分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：moxihuanyu

【摘要】

：

随着信息化网络时代的飞速发展,数据爆炸性增长的“大数据”时代已经到来。而现实生活中,文本仍是数据的主要存在形式。面对如此浩如烟海、杂乱无章的文本数据,传统的人工处

【作者】

：

袁艳红

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2016年期

【关键词】

：

文本分类词向量语言模型图核

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化网络时代的飞速发展,数据爆炸性增长的“大数据”时代已经到来。而现实生活中,文本仍是数据的主要存在形式。面对如此浩如烟海、杂乱无章的文本数据,传统的人工处理手段不仅费时费力,而且效果并不理想。因此,利用机器学习的方法对文本进行表示并进行自动分类已然成为一个重要的科研方向。文本分类任务中最重要的就是文本的特征表示,主要方法包括词频技术(TF-IDF)、词袋模型(Bag-of-Words)以及主题模型(LDA)等。但这些方法都存在一定的不足,如缺乏语义信息、受维数灾难困扰、忽略上下文结构等等。这都会对分类准确性造成一定的影响。为了提高文本分类的准确性,本文主要从以下几个方面展开了科研工作:(1)提出新的文本特征提取方法。受词袋模型思想的启发,在Word2Vec语言模型训练得到的词向量(Word Embedding)基础上,本文提出了聚类词袋模型(Bag-of-Clusters)。该方法通过分析语言模型中词向量的相关属性,构建文本的聚类词袋模型,从而完成文本的特征向量表示。最后在标准数据集中完成文本分类任务,实验结果表明新特征表示方法在分类精度上有一定的提高。(2)构建文本语义图。新的文本特征提取方法虽然在一定程度上提高了文本分类精度,但是,直接将文本进行向量化表示必然会忽略很多单词结构信息。为了能充分利用文本中单词之间的上下文结构关系,本文引入图结构来进行文本表示。通过分析Word2Vec语言模型训练得到的词向量的聚类属性对文本图结构中的结点进行语义编码,从而构建文本语义图。(3)设计能适用于文本图结构的新图核。图核(Graph Kernel)是近几年来计算图相似度的有效方法,然而现有图核却存在一些局限:时间复杂度较高;扩展性较差;图结点类型较少等。为了能有效地完成文本语义图的匹配,本文设计了新的能适用于文本语义图的图核。首先,根据文本语义图设计合理的位标签运算,丰富结点的结构信息;然后,通过迭代得到图结构的标签表示;最后,设计合理的图核函数计算图之间的相似度。通过在标准数据集上的文本分类实验证明,新图核不仅在一定程度上提高了分类精度,而且降低了图核计算的时间复杂度,具有较大的实用意义。(4)丰富边的语义信息并补充图核。新设计的图核仍然忽略了图结构中边的语义信息。为了丰富文本语义图的语义信息,并使图核能扩展到有边编码的图结构匹配中,本文在边的语义编码中融入了单词偏量。首先丰富边的语义编码,然后修改图核并应用到新的文本语义图中计算相似度。实验结果表明,该方法在保证了较低的时间复杂度的同时提高了文本分类精度,充分验证了图核方法的有效性。综上所述,本文不仅提出新的方法提高了文本分类准确率,更解决了图核计算的较高时间复杂度难题,具有一定的科研意义。

其他文献

面向领域的数据库问答系统关键技术研究

面向领域的数据库问答系统是允许用户用自然语言访问数据库的一种方式,它是多学科交叉的产物,涉及自然语言处理,数据库技术,人工智能,人机界面等多方面研究。四十多年来,面向

学位

自然语言理解数据库知识库中间语言查询目标查询条件

中文分词中歧义字段切分的研究

论文对国内现有的几种汉语自动分词中的歧义字段切分算法进行讨论，重点分析了BP神经网络的局限，提出了改进，建立了新的BP网络歧义切分模型，使其对于歧义字段的切分精度和效率进一

学位

中文分词歧义字段切分算法BP神经网络退火算法

不确定序列模式发现与查询算法的研究

随着数据采集、处理、预测等技术的不断进步,不确定序列数据普遍存在于科学、通信、物流、金融等领域的具体应用中。本文首先关注于一般形式的事务序列数据库中的频繁模式挖

学位

不确定数据序列模式数据挖掘最近邻序列

基于聚类分析的图模型文本分类

随着文本信息的迅猛增长，信息处理已经成为人们获取知识不可缺少的工具。文本分类是信息处理的重要研究方向，它有效地提高了信息服务质量，使用户更加容易、准确地定位所需的信息

学位

特征聚类图模型文本分类

基于谱聚类和CHSMM的非线性系统的剩余寿命预测

随着科学技术的飞速发展,大型复杂系统中控制逻辑的规模和复杂性日益提高,因此影响系统运行的因素也不断增加,系统发生故障和失效的可能性也相应增多。系统一旦发生故障将导

学位

退化状态识别剩余寿命预测隐半马尔可夫模型谱聚类核主元分析

低质量车牌图像字符分割与识别技术研究

随着现代交通技术的发展,智能交通系统作为一个热门的研究领域,日益受到广泛的关注,而车牌识别系统是智能交通系统中的基础环节和重要组成部分。车牌识别系统主要包括车牌定

学位

对比度增强倾斜校正字符分割字符识别车牌图像智能交通系统

Cyberspace的无线接入及可信认证仿真技术研究

随着社会科学技术的发展和人类认识水平的提高,网络设施体现了更高的异构性、多样性和复杂性。Cyberspace(网际空间)作为新兴的技术领域,在人类生活中体现的重要性越来越高,

学位

网际空间网络仿真无线接入可信认证

基于双目视觉的三维人体运动分析与研究

基于视频的人体运动分析就是对视频中人体的运动进行检测、跟踪，并获得各肢体或关节间运动信息及参数的技术，它是计算机视觉领域新兴的前沿研究方向之一，在智能监控、体育视频分

学位

人体运动分析双目视觉粒子滤波原理特征提取目标跟踪

视觉驱动的三维人脸建模和表情模拟

三维人脸建模是一个多学科交叉的研究课题，涉及到计算机图形学，模式识别，计算机视觉，面部解剖学，人机交互等多个不同学科，具有重要的科研意义。在游戏，电影，通信，医疗等领域有着广阔的

学位

三维人脸建模表情模拟肌肉模型特征提取运动参数视觉驱动

MANET中自适应服务发现关键技术研究

随着计算机技术的发展,移动设备的普及,通信技术的成熟,移动自组织网络获得了广泛的应用。服务发现技术是移动自组织网络中至关重要的技术,同时也是许多其他网络应用的基础,

学位

MANET服务发现自适应动态分簇目录迁移

基于Word2Vec语言模型与图核设计的文本分类研究

其他学术论文