论文部分内容阅读
随着科学技术的快速发展,越来越多以文本为载体的信息在论坛、博客、贴吧等媒介上出现。与此同时,文本信息的快速传播一方面丰富了人们的生活,而另一方面却也为信息的监管带来了一定的困难。由于大量负面和虚假的信息充斥着互联网等媒介,因此对于如何将文本信息进行有效且准确的分类成为了计算机科学领域的一项重要研究课题。近年来,随着自然语言处理的快速发展,文本分类技术也取得了巨大的进步,各种基于深度学习技术的文本分类模型层出不穷。但是尽管如此,这些模型依旧存在着不足之处:1)传统的文本分类模型采用单一来源的词向量作为模型的输入,对文本序列进行特征表示时往往是通过各种融合方式形成单一通道,使得文本语义特征不够丰富;2)尽管在文本分类任务中对分类结果起决定性作用的序列特征片段长度不同,但现有的文本分类模型仍旧存在卷积核的窗口大小与样本序列中关键片段长度匹配度低的问题,无法准确捕捉到具有影响力的重点文本特征,造成文本信息的大量冗余,使得无关信息对分类结果造成影响,从而导致文本分类模型的准确率无法得到提高。基于以上问题,本文提出了一种基于多通道特征表示的卷积核自适应文本分类算法模型。为了解决单一来源的词向量形成的单通道对于文本特征表示不丰富的问题,本文首先提出了一种基于多通道的特征表示方法。该方法通过将不同来源的词向量作为两个双向长短期记忆网络的输入,并分别将两个网络各自正向和逆向每个时刻的输出按垂直的方式进行堆叠形成多通道的文本特征表示,以此来同时捕获上下文的信息,从而丰富特征表示的语义信息。其次,为了解决传统文本分类模型中卷积核窗口大小与目标序列长度匹配度低的问题,本文在获得多通道特征表示后通过融入注意力机制的方式,提出了卷积核自适应的文本分类方法。该方法通过不同尺寸的卷积核对多通道特征表示进行特征提取,然后再以注意力机制的方式对不同颗粒度大小的卷积特征进行赋权,使得对分类具有决定性作用的卷积特征具有较大的权重,以此来实现卷积核宽度自适应的目的。最后,本文在多个数据集上对新提出的文本分类模型进行了对比和分析。本文所提出的文本分类模型具有一定的通用性,虽然实验中采用的是英文数据集,但是其能够轻易的迁移到其他文本分类的场景中,因此具有一定的理论研究价值。同时,实验表明本文所提出的分类模型能够有效的对新闻、影评等数据集进行分类,因此对于实际应用也有着一定的现实意义。