论文部分内容阅读
文本分类是文本挖掘的核心,在垃圾邮件检测、新闻主题划分、信息检索等领域有着重要作用。提高文本分类性能的关键是建立有效的文本表示与分类模型。目前的文本表示与分类模型在提取文本特征时,会通过人工删去一些无用单词或利用人工构建的解析树进行文本短语结构划分,并不具备自主学习的能力。近年来,利用深度学习进行文本表示与分类已经取得了进展,将强化学习的自主决策能力与深度学习的感知能力相结合,可以在深度学习的文本表示与分类模型上结合深度强化学习来自主学习提取任务相关单词和划分短语结构,分别从单词级和短语级对文本表示与分类进行研究。本文具体研究如下:(1)设计了基于深度强化学习的单词级文本表示与分类ABLCNN-Word模型。ABLCNN-Word模型利用深度强化学习策略梯度算法的策略网络自主学习提取句子中与分类任务相关的单词,决定单词的删除或保留,利用双向循环神经网络学习提取后句子的前、后向词序信息,并将词序信息输入到卷积神经网络进行卷积运算得到文本特征表示,再利用Softmax进行分类。实验表明ABLCNN-Word模型在MPQA、CR、MR、Subj、TREC数据集上的准确率比未加入深度强化学习的ABLCNN 模型分别提高了 2.00%、2.79%、0.55%、0.36%和 2.80%。(2)设计了基于深度强化学习的短语级文本表示与分类DBLCNN-Phrase模型。DBLCNN-Phrase模型利用策略网络预测单词所在短语的位置、自主划分句子中的短语结构,即句子中存在内在关联的子结构,通过双层双向循环神经网络分别对句子进行单词层和短语层的词序信息表示,利用卷积神经网络对短语层词序信息进行进一步的特征提取得到文本表示,再使用Softmax进行分类。实验表明,DBLCNN-Phrase模型在MPQA、CR、MR、Subj、TREC数据集上的准确率比未加入深度强化学习的DBLCNN模型分别提高了 1.57%、1.22%、1.20%、1.14%和2.00%。而在MPQA、CR、MR、Subj数据集上,加入深度强化学习的短语级DBLCNN-Phrase模型的准确率比加入深度强化学习的单词级ABLCNN-Word模型的准确率分别提高了 2.5%、0.2%、0.6%、0.9%,表明DBLCNN-Phrase模型考虑文本短语结构后特征表示更为丰富,在文本表示与分类任务中性能更好。在此基础上,本文还将ABLCNN-Word模型和DBLCNN-Phrase模型与ACNN(BiLSTM)、AdaSent等现有模型进行了对比,实验表明,在数据集MPQA和CR上,本文模型的准确率最高,在其它三个数据集上本文模型的准确率也有不同程度的提升。