各种分类方法在垃圾短信识别中的应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:win1917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,短信、邮件成我们生活不可缺少的一部分,信息技术在不断改变着我们的生活,让我们的生活更方便,与此同时我们也常遭受它带给我们的各种困扰。在日常生活中我们会收到各种各样的短信和邮件,其中就包括垃圾短信、邮件,这些垃圾短信、邮件可能存在一定的攻击,给我们信息、财产安全带来威胁,人们在不断尝试使用现有的技术对这些垃圾进行识别,希望得到比较高的准确率。对垃圾短信、邮件的识别其实是一种文本挖掘,对于文本挖掘,文本处理和分类技术都是特别重要的,本文主要是从这两方面出发的。在文中,我们首先对文本数据的处理方法做了介绍,其中包括特征词集合选取、特征词集合空间向量模型的构造;然后,对Logistic、支持向量机、朴素贝叶斯、决策树、k近邻以及组合分类方法的原理作了阐述,并对这些方法中的重点问题作了介绍,同时针对本文使用的短信文本数据是不平衡的问题,在文中介绍了不平衡问题分类器预测效果评价的可选度量,如准确率、召回率、真正率等;最后,使用来自于 https://www.kaggle.com/uciml/sms-spam-collection-dataset 的英文短信文本数据,建立特征词的空间向量模型,应用文中的分类方法,建立各种分类器,通过十次交叉验证比较各种分类器预测效果的好坏。对于分类器预测效果的比较,本文主要采用准确率、正常短信的召回率、垃圾短信的召回率三个指标作为评断标准。通过比较我们发现各种分类器准确率和正常短信的召回率都很高而且几乎没有差别,但垃圾短信的召回率存在较大差异,其中朴素贝叶斯的最高,k近邻的最小,综合以上,我们可以得出对于文中文本数据朴素贝叶斯的分类器预测效果最好,k近邻分类器的预测效果最差。这个结论与朴素贝叶斯在实际中的主要应用是电子邮件过滤以及文本分类相符,同时还说明对于不平衡问题k近邻并不适用。
其他文献
目的:在对ARDS机械通气患者行肺复张时,观察在4种不同氧浓度条件下ARDS患者肺复张过程中呼吸力学、血气分析、血流动力学指标的变化,探讨不同氧浓度在ARDS患者肺复张时的临床
介绍了近年来国内外毛细管电泳(CE)在食品分析中的应用,包括蛋白质、氨基酸、生物胺、维生素、碳水化合物、无机离子、有机酸、食品添加剂、农药和抗生素残留、生物毒素等食
以主观听觉测试实验为手段,研究人耳听觉系统辨识能力与声音特性、评价主体训练程度及噪声干扰的关系.实验结果发现:人耳辨识声音能力主要由声信号的谱时结构决定,人耳对于谐
目的构建能稳定表达荧光素酶和绿色荧光蛋白的人三阴性乳腺癌MDA-MB-231细胞系以建立可用于活体成像的三阴性乳腺癌裸鼠移植瘤模型。方法采用磷酸钙共沉淀的方法构建表达荧光
目的:研究碱性成纤维生长因子(bFGF)转染骨髓间充质干细胞(MSCs)对COPD大鼠中IL-10、IL-4表达的影响及其分化方法:采用全骨髓贴壁细胞法提取、培养BMSCs。采用脂质体转染法导
通过构造两个合适的余乘,本文首先分别在矩阵代数和非交换多项式代数上构造了带权无穷小双代数结构.其次,本文在矩阵代数上构造了一个Aguiar观点下的无穷小Hopf代数.然后,通过探究带权无穷小双代数和预李代数的关系,本文在矩阵代数上构造了一个预李代数,从而得到一个新的李代数.最后,本文给出了非交换多项式代数上的一个预李代数和李代数的构造.
经济全球化以来,世界上很多发展中国家纷纷采取一系列措施积极吸引外商直接投资,从而获得发达国家的资金和管理经验,实现本国经济的快速发展。例如亚洲四小龙的韩国、香港、台湾、新加坡充分利用外商直接投资,从而实现了本国经济的高速发展,跨过中等收入陷阱,进入发达国家行列。2001年中国加入世界贸易组织以来,也积极改善投资环境,吸引FDI投资从而实现了经济的高速发展。老挝作为典型的发展中国家,地处东南亚,同时
目的:探讨新生儿期上气道梗阻的诊断评估特点,对新生儿期上气道梗阻病因进行分类,建立规范诊治方案,改善患儿预后。方法:回顾性分析71例上气道梗阻患儿的临床资料,38例采用内
本文分析了影响混凝土耐久性的种种因素,具体阐述了粉煤灰、硅灰、磨细的粒状高炉矿渣等物质对混凝土耐久性的提升起到的良好效果,并根据上述相关结论得出了提升混凝土耐久性
目的:观察桑杏汤加减联合复方甲氧那明对感染后咳嗽风邪郁热证患者的疗效,对患者治疗前后的咳嗽、咽痒、咯痰等症状进行比较,并评价安全性,为感染后咳嗽提供有效可行的治疗方