基于主题模型与深度学习的短文本特征扩展与分类研究

来源 :天津工业大学 | 被引量 : 6次 | 上传用户:march2th
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术可以帮助人们挖掘隐藏在庞大文本集中的有价值的内容。目前众多研究已经在传统文本分类任务上取得了优秀的效果。但随着新型社交媒体的普及,使得互联网上出现了大量的短文本信息。短文本的种类通常包括:用户微博、电商评论、搜索引擎的搜索关键语句等。短文本通常只有l0~100字构成,而充足的数据特征又直接影响着机器学习算法的效果。因此,以往在长文本上可以取得优秀效果的分类方案,在短文本上却难以取得令人满意的效果。针对短文本分类的研究往往从文本特征扩展、改善词向量表示的质量、提高分类方案的效果,这三方面开展工作。本文基于目前在短文本分类任务上的工作开展研究,其主要研究内容包括:1)对现有的短文本扩展方案进行分析与研究;2)对现有的词向量表示方案进行分析与改进;3)对现有的特征选择算法进行分析,并用于短文本的特征提取工作。4)应用卷积神经网络对短文本矩阵进行分类。本文的主要工作包括:1)基于TNG(Topical N-Gram)主题模型提出了一种新的短文本特征扩展方案,并对该方案的优缺点进行分析;2)基于TWE(Topical Word Embedding)模型对文本的词向量和主题向量的训练方式进行改进。3)基于监督式MCFS(Multi-Cluster Feature Selection)算法,提出了一种主题合并策略,在提取关键特征的同时,最大程度的保护短文本的原始特征,减少提取过程中的特征损耗。综合上述各项成果,提出了一套系统的短文本分类框架,包括词向量嵌入、特征工程、基于CNN的分类系统。最终使用了一套开放性短文本数据集来验证本文提出的分类框架的效果。实验证明,本文提出的方案相比于众多参与对比的其他分类方案,在多个分类评价指标上取得了更优秀的效果。
其他文献
针对既有房屋进行安全鉴定工作具有十分重要的现实意义,是于国于民都大有益处的一项重要工作,应受到相关工作人员的重视。本文主要针对既有房屋的安全鉴定工作内容进行分析,
萧挞览是继耶律休哥、耶律斜轸之后辽国的又一员虎将,他有勇有谋,多次带兵攻宋.景德元年(1004)澶州之战,他当时是辽军统帅,却被宋军射杀于城外,他的死促使澶渊之盟的签定.对