论文部分内容阅读
随着信息化网络时代的飞速发展,数据爆炸性增长的“大数据”时代已经到来。而现实生活中,文本仍是数据的主要存在形式。面对如此浩如烟海、杂乱无章的文本数据,传统的人工处理手段不仅费时费力,而且效果并不理想。因此,利用机器学习的方法对文本进行表示并进行自动分类已然成为一个重要的科研方向。文本分类任务中最重要的就是文本的特征表示,主要方法包括词频技术(TF-IDF)、词袋模型(Bag-of-Words)以及主题模型(LDA)等。但这些方法都存在一定的不足,如缺乏语义信息、受维数灾难困扰、忽略上下文结构等等。这都会对分类准确性造成一定的影响。为了提高文本分类的准确性,本文主要从以下几个方面展开了科研工作:(1)提出新的文本特征提取方法。受词袋模型思想的启发,在Word2Vec语言模型训练得到的词向量(Word Embedding)基础上,本文提出了聚类词袋模型(Bag-of-Clusters)。该方法通过分析语言模型中词向量的相关属性,构建文本的聚类词袋模型,从而完成文本的特征向量表示。最后在标准数据集中完成文本分类任务,实验结果表明新特征表示方法在分类精度上有一定的提高。(2)构建文本语义图。新的文本特征提取方法虽然在一定程度上提高了文本分类精度,但是,直接将文本进行向量化表示必然会忽略很多单词结构信息。为了能充分利用文本中单词之间的上下文结构关系,本文引入图结构来进行文本表示。通过分析Word2Vec语言模型训练得到的词向量的聚类属性对文本图结构中的结点进行语义编码,从而构建文本语义图。(3)设计能适用于文本图结构的新图核。图核(Graph Kernel)是近几年来计算图相似度的有效方法,然而现有图核却存在一些局限:时间复杂度较高;扩展性较差;图结点类型较少等。为了能有效地完成文本语义图的匹配,本文设计了新的能适用于文本语义图的图核。首先,根据文本语义图设计合理的位标签运算,丰富结点的结构信息;然后,通过迭代得到图结构的标签表示;最后,设计合理的图核函数计算图之间的相似度。通过在标准数据集上的文本分类实验证明,新图核不仅在一定程度上提高了分类精度,而且降低了图核计算的时间复杂度,具有较大的实用意义。(4)丰富边的语义信息并补充图核。新设计的图核仍然忽略了图结构中边的语义信息。为了丰富文本语义图的语义信息,并使图核能扩展到有边编码的图结构匹配中,本文在边的语义编码中融入了单词偏量。首先丰富边的语义编码,然后修改图核并应用到新的文本语义图中计算相似度。实验结果表明,该方法在保证了较低的时间复杂度的同时提高了文本分类精度,充分验证了图核方法的有效性。综上所述,本文不仅提出新的方法提高了文本分类准确率,更解决了图核计算的较高时间复杂度难题,具有一定的科研意义。