基于深度强化学习的文本表示与分类研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:hitlic2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的核心,在垃圾邮件检测、新闻主题划分、信息检索等领域有着重要作用。提高文本分类性能的关键是建立有效的文本表示与分类模型。目前的文本表示与分类模型在提取文本特征时,会通过人工删去一些无用单词或利用人工构建的解析树进行文本短语结构划分,并不具备自主学习的能力。近年来,利用深度学习进行文本表示与分类已经取得了进展,将强化学习的自主决策能力与深度学习的感知能力相结合,可以在深度学习的文本表示与分类模型上结合深度强化学习来自主学习提取任务相关单词和划分短语结构,分别从单词级和短语级对文本表示与分类进行研究。本文具体研究如下:(1)设计了基于深度强化学习的单词级文本表示与分类ABLCNN-Word模型。ABLCNN-Word模型利用深度强化学习策略梯度算法的策略网络自主学习提取句子中与分类任务相关的单词,决定单词的删除或保留,利用双向循环神经网络学习提取后句子的前、后向词序信息,并将词序信息输入到卷积神经网络进行卷积运算得到文本特征表示,再利用Softmax进行分类。实验表明ABLCNN-Word模型在MPQA、CR、MR、Subj、TREC数据集上的准确率比未加入深度强化学习的ABLCNN 模型分别提高了 2.00%、2.79%、0.55%、0.36%和 2.80%。(2)设计了基于深度强化学习的短语级文本表示与分类DBLCNN-Phrase模型。DBLCNN-Phrase模型利用策略网络预测单词所在短语的位置、自主划分句子中的短语结构,即句子中存在内在关联的子结构,通过双层双向循环神经网络分别对句子进行单词层和短语层的词序信息表示,利用卷积神经网络对短语层词序信息进行进一步的特征提取得到文本表示,再使用Softmax进行分类。实验表明,DBLCNN-Phrase模型在MPQA、CR、MR、Subj、TREC数据集上的准确率比未加入深度强化学习的DBLCNN模型分别提高了 1.57%、1.22%、1.20%、1.14%和2.00%。而在MPQA、CR、MR、Subj数据集上,加入深度强化学习的短语级DBLCNN-Phrase模型的准确率比加入深度强化学习的单词级ABLCNN-Word模型的准确率分别提高了 2.5%、0.2%、0.6%、0.9%,表明DBLCNN-Phrase模型考虑文本短语结构后特征表示更为丰富,在文本表示与分类任务中性能更好。在此基础上,本文还将ABLCNN-Word模型和DBLCNN-Phrase模型与ACNN(BiLSTM)、AdaSent等现有模型进行了对比,实验表明,在数据集MPQA和CR上,本文模型的准确率最高,在其它三个数据集上本文模型的准确率也有不同程度的提升。
其他文献
根据2018年8月大亚湾海域底拖网鱼类资源调查数据,分析了大亚湾夏季鱼类群落结构特征。结果表明:2018年大亚湾夏季渔获鱼类56种,隶属9目、34科、47属。其中,鲈形目(Perciformes)最
文章从需求的角度梳理一般性创新和破坏性创新发生的机理,主要研究消费者的各种特征如何影响其对新产品和新技术的需求,进而影响采用新技术的企业和在位主导企业的生存和发展以
<正>布依族是中国西南部一个人口较多的少数民族,(2010年全国第六次人口普查287万余人)总人数在全国56个民族中排名第12位。贵州省的布依族人口占全国布依族总人口的97%以上,
本文采用微波水热法制备银或钐单掺及其共掺杂的TiO2光催化剂(TiO2-Ag、TiO2-Sm和TiO2-Ag-Sm),同时还以[Bmim]PF6离子液体作反应介质,用溶胶凝胶法制备了TiO2-Ag催化剂。通过3
为了解决传统图像分割算法在植物工厂中偏色光植物图像上分割精确度不高、泛化性能差的问题,提出了一种基于卷积神经网络,并结合深度学习技术,对人工偏色光下植物图像进行精
目的:探讨儿童万古霉素血药浓度的分布特点及目标治疗浓度方法:以2017年11月至2019年2月于中国医科大学附属盛京医院住院并使用万古霉素治疗的患儿为研究对象,共59例,其中针
以野外露头考察为基础,综合油田钻测井、地震等资料,探索了渤海海域白垩系义县组火山岩喷发模式,总结出不同岩相的井-震响应特征,并明确了岩相控制下的成储差异.研究结果表明
近年来海参以其特有的营养价值走入市场,养殖产业逐渐扩大,但繁琐的捕获过程令人困扰。目前的海参捕获方法多为人工捕获,效率低且潜在危险大。故本文针对海参捕获的问题研制了捕获机械手。首先对海参的生活习性等进行了调研,对比分析了相关领域的研究现状,结合海参特点、捕获环境等,创新性的提出以阿基米德多面体为基本构型的捕获手爪,并对13种阿基米德多面体进行拆解分析,利用其自身的高度对称性将多面体划分为顶面、支链
河南省汝州市作为传统资源型城市和重工业城市,近年来,围绕破解"两难"困境,大力实施"能人回归"工程,推进农民工返乡下乡创业,有力推动了产业转型、经济转型、城市转型。科学规划
大众创业万众创新政策下,会计专业的大学生顺应时代发展,积极参与大学生创新创业项目,在老师指导下成立财税咨询工作室。本文通过SWOT分析研究成立工作室的优势、劣势及遇到