【摘 要】
:
文本分类(Text Classification)是指使用计算机将文本数据自动划分成预先给定的类别,是自然语言处理中的基础性任务,在信息检索、数据挖掘等领域有着重要应用价值。本文在深
论文部分内容阅读
文本分类(Text Classification)是指使用计算机将文本数据自动划分成预先给定的类别,是自然语言处理中的基础性任务,在信息检索、数据挖掘等领域有着重要应用价值。本文在深度学习分类方法的基础上,提出一种结合注意力和池化的文本分类模型APCM(Attention-Pooling Text Categorization Model)。本文使用该模型在新闻文本分类语料上进行对比实验,并采用特征融合的方法提升模型分类性能。具体研究工作如下:(1)基于注意力和池化机制的文本分类模型。针对传统神经网络分类方法收敛速率方面的不足,本文提出一种基于注意力的分类模型APCM。注意力机制和池化机制作为目前深度学习方法中的基准结构,较传统神经网络模型参数少,提取特征能力更强。APCM结合二者的优点,使用注意力提取文本的关键信息,使用池化提取文本的全局信息。APCM在NLPCC2014新闻分类数据集上达到83.96%的准确率,高于卷积神经网络、长短时记忆神经网络、池化模型,同时在收敛速率方面具有优势。本文对APCM的特征提取部分进行模型消去实验,实验表明模型的最大池化结构相对更为重要。针对新闻文本上下文多、信息密度大的特点,本文对APCM进行泛化能力和文本长度适应能力测试,实验表明APCM在新闻文本分类任务上具有一定的鲁棒性。(2)基于字特征和词性特征融合的分类模型。考虑到字是中文的最小语义单位且词性是词汇的基础属性,本文进行融合字特征与词性特征的实验。实验将字和词性分别编码向量,与词向量一同输入到APCM、卷积神经网络、长短时记忆神经网络等模型中。实验结果表明,字向量融合在各模型上均产生一定的提升模型分类性能的效果,词性向量融合使部分模型的分类性能得到提高,且总体的提升幅度相对字向量较小。(3)基于How Net义原特征融合的分类模型。How Net知识库提供了词汇的基本语义单位,即义原的概念。为增强模型在新闻文本中对深层次语义信息的提取能力,本文对APCM进行融合How Net义原特征的实验。编码结合义原向量的APCM模型在NLPCC2014和Sogou CS新闻分类数据集上的准确率分别获得2.81%和3.21%的提升,表明融合义原特征的方法有助于改善模型的分类效果。
其他文献
放射治疗是治疗恶性肿瘤的重要手段,但不少病人可出现不同程度的放射性皮炎,重者皮肤表皮脱落、溃破、水肿、渗液甚至继发感染。主要是由于基底层内的前体细胞不能再产生新细
自从第三次科技革命以来,技术的发展使得大量的电力电子装置开始在工业、交通、生活中广泛使用,在惠及人类社会各个方面的同时,大量电力电子装置的应用也产生了大量的谐波,严
图像是高维数据,本身蕴含了大量复杂的信息和特征,如何有效从高维复杂图像数据中挖掘内在规律并进行高效的分析识别,一直是计算机科学领域面临的基本问题。近年来提出的稀疏
微电网作为综合消纳分布式可再生能源有效形态,在能源转型的大趋势下正迎来广阔的发展前景。同时,信息物理融合技术以及先进控制技术正推动微电网朝多形态重塑与发展以丰富其
目前,风电在中国发展迅速,装机容量不断翻番。如何评价风电场的生产管理水平,需要有一套客观而权威的指标体系。本文通过研究介绍了目前行业、集团公司指标管理和激励的现状,
随着乡村振兴战略与“双创”战略的深入推进,返乡创业的农民工数量也在逐步上升。农民工返乡创业不仅有利于增加自身收入,提升物质生活水平,而且也有利于推动农村地区经济发
微博的出现进一步推动了社交网络的发展。微博拥有大量的用户,这些用户通过微博进行信息共享,与其他用户沟通交流,使其成为信息传播的重要途经之一。微博平台每天产生大量的信息,通过微博进行消息的传播与共享,给人们带来便利的同时也有很多挑战。因此,微博等社交网络流行度预测也备受广大学者关注。能够及时准确的预测微博流行度,对于个性化的消息推荐,突发新闻检测和舆情分析等有重要意义。首先,针对传统的基于SVM的主
目的:本研究旨在探讨脑钠尿肽(BNP)和血管内皮功能检查(FMD)与冠状动脉狭窄程度的相关性研究,以及能否对冠心病提供重要的诊断价值。方法:随机选择2017年11月一2018年11月在青海大学附属医院心内科住院治疗,并且行冠脉造影检查和无创高频超声FMD检查的患者。根据1979年国际心脏病学会颁布的冠心病临床诊治指南,通过冠脉血管造影影像,如冠脉狭窄面积大于等于50%的住院病人则诊断为冠心病。相反
随着社会的进步与时代的发展,计算机与社会中的各行各业结合的愈加紧密,对于存在于网络流量中能对计算机产生危害的漏洞利用程序已经成为当前不可忽视的威胁,如何对存在于网
染料、抗生素、除草剂、内分泌干扰物、个人护理用品等有机污染物因其造成的一系列的生态问题,威胁着人类的健康,在全球范围内的出现,引起了人们越来越多的关注。由于离子型有机化合物在吸附剂上的预浓缩和固化,利用吸附技术对离子有机化合物进行有效的去除已经取得了很大的进展。然而,由于其水溶性高,目前对水溶液中离子型有机污染物的去除仍然是一个挑战。开发新型高效吸附离子型有机污染物的吸附剂势在必行。薄层黑磷作为后