论文部分内容阅读
随着移动互联网技术的快速发展,短文本信息呈现出爆发式增长趋势,对短文本分类的研究也越发的深入。同时,短文本信息的增长导致不断出现新领域数据,存在传统机器学习算法无法及时对新领域数据建模分类的问题;短文本信息多样化的发展导致传统的单标签分类已经不能满足现有的多标签数据,存在传统机器学习算法无法学习到多标签之间的依存关系的问题。随着深度学习技术在图像处理、语音识别、对话生成等领域取得了优异的成果,深度学习模型展现出其层次化特征提取方面的优势。本文对短文本数据进行挖掘与分析,在研究深度学习模型卷积神经网络和长短时记忆网络原理的基础上,利用深度学习技术对目前短文本分类存在的问题进行研究并应用。本文的主要研究内容如下:(1)针对传统机器学习算法无法及时对新领域数据建模分类的问题,本文提出基于深度迁移学习的短文本单标签分类方法。利用深层卷积神经网络与实验提取相似领域与目标领域的通用特征,并迁移到目标领域中训练分类器,解决新领域数据标注不足而无法训练分类器的问题,同时提高模型的泛化能力。(2)针对传统机器学习算法无法学习到多标签之间依存关系的问题,本文提出基于序列生成模型的短文本多标签分类方法。所提出的序列生成模型由编码器和具有注意力机制的解码器构成,基于先前预测的标签再预测下一个标签,学习标签之间的依存关系,解决短文本信息不足而无法预测多标签的问题。(3)本文将前两点结合,通过互联网构建可交互界面,设计并实现应用于实际场景的基于类别先验知识的人民调解案例推荐系统。