论文部分内容阅读
网络成为大众生活中的必需品,承载着数以亿计的数据传输。用户在享受网络带来的便捷与利益的同时,随时随地分享自己的信息。简短的文字就是一种快速信息传递的方式。从这些数据中挖掘的商业价值、情感和事态走向会成为决策者们的一把利器。本文结合非负矩阵分解和深度学习模型对短文本分类方法进行研究,主要工作如下:1.提出了一种基于流形正则化的非负矩阵三分解(MNMTF)算法。由于短文本字数受限导致文本特征稀疏,以及短文本和单词之间呈现不平衡地增长趋势。为了解决这些问题,以及减弱随机初始化对实验结果产生的不稳定干扰,对聚类指示矩阵的求解方式采用二段式矩阵分解。通过对稠密的关联矩阵进行分解,减弱数据不平衡对结果产生的消极影响。再对关系矩阵进行分解时加入流形正则化处理,解决短文本特征稀疏的问题。2.基于改进的非负矩阵分解算法,提出了一种短文本特征扩展方法(NMFFE)。采用特征扩展的方式增加原数据的文本长度,以此解决短文本特征稀疏的问题。首先,通过MNMTF算法获取词-类别特征空间。再根据特征空间计算出特征之间的相关性,将强关联的特征加入短文本中。此外,数据的更新换代对关键词的时效性会产生影响,因此提出词-类别特征空间的更新规则来确保新特征不被遗漏。在三个公开的数据集上进行短文本分类实验,结果表明:在丰富文本特征方面以及定位强类别关联的关键词方面,基于非负矩阵分解的特征扩展方法可以提高短文本分类性能。3.提出了两种基于特征嵌入的短文本分类模型。从短文本的多个层面获取丰富的信息一直是文本表示研究的趋势。首先,根据词-类别特征空间计算出特征的关联强度,以此获取局部类别信息和全局类别信息,并将这些信息融合成句子粒度类别特征。然后,使用双向的长短时记忆网络提取上下文语义信息,并将隐藏层输出与句子粒度类别特征融合成多粒度特征表示。在公开数据集上使用两种分类模型进行短文本分类实验,验证了基于多粒度特征表示的短文本分类方法在提高分类性能方面的有效性。4.通过构造辅助句引入扩展信息融合到文本中。将单句分类任务转换成句子对分类任务,对预训练的BERT模型进行微调。通过对比单句分类和句子对分类的实验结果,证明了通过构造辅助句进行句子对分类任务在提高BERT模型分类性能方面的有效性。