基于非负矩阵分解和深度学习的短文本分类研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:zhaobaodong2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络成为大众生活中的必需品,承载着数以亿计的数据传输。用户在享受网络带来的便捷与利益的同时,随时随地分享自己的信息。简短的文字就是一种快速信息传递的方式。从这些数据中挖掘的商业价值、情感和事态走向会成为决策者们的一把利器。本文结合非负矩阵分解和深度学习模型对短文本分类方法进行研究,主要工作如下:1.提出了一种基于流形正则化的非负矩阵三分解(MNMTF)算法。由于短文本字数受限导致文本特征稀疏,以及短文本和单词之间呈现不平衡地增长趋势。为了解决这些问题,以及减弱随机初始化对实验结果产生的不稳定干扰,对聚类指示矩阵的求解方式采用二段式矩阵分解。通过对稠密的关联矩阵进行分解,减弱数据不平衡对结果产生的消极影响。再对关系矩阵进行分解时加入流形正则化处理,解决短文本特征稀疏的问题。2.基于改进的非负矩阵分解算法,提出了一种短文本特征扩展方法(NMFFE)。采用特征扩展的方式增加原数据的文本长度,以此解决短文本特征稀疏的问题。首先,通过MNMTF算法获取词-类别特征空间。再根据特征空间计算出特征之间的相关性,将强关联的特征加入短文本中。此外,数据的更新换代对关键词的时效性会产生影响,因此提出词-类别特征空间的更新规则来确保新特征不被遗漏。在三个公开的数据集上进行短文本分类实验,结果表明:在丰富文本特征方面以及定位强类别关联的关键词方面,基于非负矩阵分解的特征扩展方法可以提高短文本分类性能。3.提出了两种基于特征嵌入的短文本分类模型。从短文本的多个层面获取丰富的信息一直是文本表示研究的趋势。首先,根据词-类别特征空间计算出特征的关联强度,以此获取局部类别信息和全局类别信息,并将这些信息融合成句子粒度类别特征。然后,使用双向的长短时记忆网络提取上下文语义信息,并将隐藏层输出与句子粒度类别特征融合成多粒度特征表示。在公开数据集上使用两种分类模型进行短文本分类实验,验证了基于多粒度特征表示的短文本分类方法在提高分类性能方面的有效性。4.通过构造辅助句引入扩展信息融合到文本中。将单句分类任务转换成句子对分类任务,对预训练的BERT模型进行微调。通过对比单句分类和句子对分类的实验结果,证明了通过构造辅助句进行句子对分类任务在提高BERT模型分类性能方面的有效性。
其他文献
常听到人在说“追求异性的方法”,或者类似的话。“追求”一词,好像成了爱情生活中不可或缺的一种行动一样。每当听到有人这样说的时候,我总是一面摇头,一面表示一下意见:追求,实在并不存在于爱情词典之中。爱情绝不会是靠追求而来的,不必求,爱情一定是自然产生的,来得那么自然,也那么突然,全然没有轨迹可循,也不是任何力量所能强迫产生的。  真正的爱情,完全不需要追求,相爱了,来得迅速而自然,一见钟情,或一拍即
政治文明是人类社会制度发展的先进成果。现代政治文明的基本要求是民主制度化和社会法治化。我国的政治制度是从半封建半殖民地社会转变过来的,政治文明的遗产不多,传统体制
人类社会的发展,影响了正常的水资源使用。生活污水、工业废水的排放对目前的水环境带来较大的污染,尤其是重金属污染非常严重,导致生态环境受到严重的破坏。因此,注重水环境
目前,学术界关于民族地区财政转移支付制度研究的文献较多,从研究方法上看,有对策性研究方法、制度研究方法、国际比较研究方法、结构分析研究方法、案例研究方法等,其中多数
在马克思主义中国化的过程中,冯友兰的《新事论》可谓经典个案,从中可以分析“文化”的重要性。冯友兰近40年的学术生涯中着力解决的是中西文化的矛盾问题。《新事论》要阐明