基于深度学习的文本分类研究

来源 :内蒙古民族大学 | 被引量 : 0次 | 上传用户:zhoubin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是信息时代,随着计算机技术、数据存贮技术日新月异的发展,应用领域也得到了快速扩展,文本数据资源正以指数级的速度增长着.对于用户来说面对如此海量的文本信息,但知识却相对贫乏的现象,人们从海量的信息中获取有意义的、相关性强的知识变得困难,因此将文本信息按照某些主题分类是一个迫切需要解决的问题,也是文本数据存储发展的必由之路.  从文本分类由美国学者H.P.Luhn教授在1957年第一次被提出来,现今文本分类已经成为数据挖掘领域非常重要的一个分支,它已经在搜索引擎等领域有较好的应用.文本分类中特征选择是降低特征空间维数提高分类算法精度的重要过程.所以寻找优秀的特征选择方法对特征空间进行降维,当前己是一个非常有实际价值的研究课题.下面是本文所做的主要工作:  首先,对文本分类的相关技术:文本表示、分词处理、去停用词、特征选择、特征抽取等算法进行了介绍分析,也介绍了分类结果的评判标准和常用的语料数据集,在后续试验中应用这些技术将文本数据转换成计算机可处理的数据结果.并且介绍了深度学习的产生发展经历及其在文本挖掘中的应用.  其次,本文主要研究了利用自动编码器(Autoencoder)训练之后进行特征提取的相关工作,通过与其他特征提取的分类结果进行比较提出了基于AE的特征提取分类算法.并在数据及上进行了验证.  最后提出了中基于多个自动编码器(Autoencoder)的文本分类方案,并与单个AE进行分类的方案进行了理论分析与想,进行了相应范围内的实验,给出了对比分析.
其他文献
坚持和发展人民民主,是共产党执政为民的本质要求。党的十六届四中全会把发展社会主义民主政治,作为加强党的执政能力建设的重要内容,并指出,发展党内民主,是政治体制改革和
Tributyl phosphate (TBP) was employed for the Bi(III) extraction from hydrochloric acid medium. The effects of extraction time and material concentration were e
在捷联惯导系统中,加速度计和陀螺的输出数据中不可避免的会有噪声干扰,影响到输出值的精确度,进而影响到解算值的精确度,使得导航姿态解算精度不高。神经网络算法具有很好的对陌
本文主要研究了4-进复小波的构造方法.复数小波在应用中有一些实数小波所不能替代的优势,然而复数小波的研究相对较少.尤其是多进复小波由于构造较为复杂,可供应用选取的实例不
2016年1月份北京市农产品批发价格指数同比下降1.3%,环比上涨0.98%。7大类商品3涨4降,其中肉禽、蔬菜和水产品3类价格指数同比均有不同程度上涨;粮食、食用油、鸡蛋和水果4类
自改革开放以来,我国的保险业一直处于高速发展状态,作为社会保障及金融体系的重要组成部分,有着不可替代的作用。但是与发达国家保险市场相比,我国的保险业还存在着许多不完善的地方,而且我国的保险业在地域发展上也存在着巨大的差距。保险数据分析是统计学的一个重要应用领域,从前期的保费核定工作开始,再经过一系列风险评估、赔付率计算,到后期的保费收入、报案量、结案量预测,统计理论贯穿始终。随着保险业规模的不断扩
基于金属纳米结构而获得随机激光的增强,其独特的性质及其潜在的应用价值具有重要的研究意义,在表面增强荧光、光学开关器件、表面等离子激元激光等方面实现了较多应用。本研究提供了一种快捷有效地制备纳米颗粒的方法并基于该纳米颗粒结构分析了染料掺杂聚合物薄膜涂覆的随机激光现象和规律。本论文围绕Au纳米颗粒的制备和应用展开研究,利用金属溅射沉积和高温热处理技术获得不同粒径分布和光谱特征的Au纳米颗粒;通过涂覆有
学位
十三陵水库,习仲勋教周恩来推独轮车1958年6月15日,北京天气异常炎热。一大早,时任国务院秘书长的习仲勋便随同由周恩来带领的中央国家机关和中央直属机关300多名领导干部又
近些年来,随着数据库技术和网络技术的发展,计算机数据存储功能不断进步,数据挖掘作为一个强有力的数据分析工具,在许多领域做出了巨大的贡献,具有广阔的应用前景。不断出现的各种
《建筑物防雷设计规范》GB50057-2010自2011年10月1日开始正式实施,在防雷分类、防雷措施、防雷装置等章节做了诸多修改.笔者对比新旧规范的相关条文内容,在民用建筑防雷设计