新闻文本分类方法研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:cmdl_CQ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着产业互联网的进步,网络逐渐变成了人们交流思想、表达意见的不可或缺的平台和工具。互联网新媒体工具已经成为党、政府、企业加强舆论引导、推动社会治理创新的重要工具。由于网络内容的复杂性和多样性,需要对其进行分类,以满足用户对网络舆情分析的需要,我们熟悉的文本分类方法有典型的传统分类方法和深度学习方法。传统的分类方法不仅造成文本特征向量的高度稀疏性和维数灾难,而且存在丢失文本的语序信息以及造成文本冗余的现象,根据传统的构造方法构造出的特征向量表达不够精准。鉴于对准确性的要求,开展的研究中把句子外部特征作为相关性指标,从而达到过滤格式不规则的非新闻事件垃圾的目的,然后再通过深度学习提取并保留标准格式新闻文本及其语义特征,并在新闻主题层次上进行分类。通过以上的规划,本文研究的相关工作如下:1.本课题提出了一种根据句子外部结构特征来构造特征向量的方法。微博文本具有不规范的无关和垃圾信息的特性,以微博和头条新闻为研究对象,根据提取的新闻文本格式和数量特征规划出句型、情感倾向、特殊的词,和特殊字符等12种外部特性,具有外部格式的微博新闻文本特点和未经处理的微博新闻文本有较为明显的区分。依据各式各样的句子外部特征类型,以及应用机器学习分类方法的来提高分类泛化性能,为实现微博新闻文本的二分法在本次实验中最终选择了随机森林方法,从而提取文本特征相关标准,随之作为接下来分类的参考的同时达到过滤的与新闻无关的垃圾信息的效果,并且针对性的解决了传统文本的稀疏性和文本维度灾难的特征向量表达问题。2.本课题提出了一种融合CNN和GRU的深度学习文本分类方法来处理新闻文本分类。在上述提到的构建特征向量的基础上进而拿到特征值输入到改进的分类模型中进行对在微博新闻的分类,因为大量的文本中有语义信息稀疏主题的多样性的特点,本课题提出一种深度模型C-GRU可以解决以上问题并对微博新闻主题分类目的,具体原因有以下俩方面,其一是由于深度学习模型有对文本特征提取和分类于一体的特性,因此,通过训练C-GRU不仅可以减少了前期特征工程的工作量同时还能达到分类的效果,其二是因为C-GRU自身携带具有门式遗忘的结构,在搜集特征向量时加入少些噪音并扩充了向量集的饱满性,这样让新闻文本关键词与主题相关的内容更加容易采集并加以关联,从而有效实现新闻文本的分类。3.通过对比试验,本课题所使用改进后的方法对于微博新闻文本分类相对应的衡量指标都比传统8F型提高10%-15%,接着把句子外部特征的文本去做深度学习文本分类的应用中,本文改进的C-GRU模型的分类准确率较CNN提高了5%左右。
其他文献
近年来,中国汽车行业一直呈现高速发展态势,虽然去年国家出台一些相关的标准、法规及政策来规范市场和行业,但从全年整体行业走势上看,重型改装车在重卡产量中所占比例越来越
为及时发现海事违法行为的规律和原因,不断加强长江海事水上安全监督的科学管理,减少违法行为的发生.笔者通过对长江海事2004年上半年2003年上半年的海事违法行为的比较,分析
通过对亳州花戏楼砖雕的调查,发现存在以下问题:脱落、酥粉、碱蚀、褪色和整体强度下降等,其原因主要是碱蚀所致。设想采用清洗、黏结、修复、表面封护、整体加固等工艺与措
汽车自从被发明以来对人们的生产生活产生了很大的影响,目前汽车已经成为主要的交通工具之一。汽车产业的迅速发展带来便利的同时也对人们的健康和生存环境产生了很大危害,因
目的利用GAM模型探讨苏州工业园区空气质量指数(AQI)与呼吸系统疾病日门诊量的关系。方法收集2016年1月1日—12月31日苏州市工业园区43个社区卫生服务站和5个社区卫生服务中心
苏州古典园林以其优美、深邃的空间意境和精妙体宜的造景技术博得众多观览者的一致认可,其优雅的园林风貌、悠远的历史文脉也成为中国宝贵的文化遗产。而对苏州古典园林的现
字母词在汉语中出现和发展有诸多因素,本文主要从汉字的特点、汉语拼音化、外来词的转写和社会文化心理等方面探讨汉语字母词形成的原因。
主持人的话我们的“诗人讲坛”关于西川的专题真的是费了一些周折,也因了一次非常美妙和非常可贵的机缘。前两年间,我们想约请西川参加我们的“诗人讲坛”活动,他不是在加拿大,就
本研究通过用 MAC 方法模拟了锥柱组合体在出水过程中的流场,定性上给出了空泡、自由面的发展变化过程以及空泡周围的压力场和速度场。由于计算模型的局限性,计算结果只能定