【摘 要】
:
分类是数据挖掘领域中的一个核心研究内容。一般的分类研究主要针对于平衡数据集,但在实际应用中,不平衡数据集大量存在。所以,对不平衡数据集的分类研究具有实用价值。一般
论文部分内容阅读
分类是数据挖掘领域中的一个核心研究内容。一般的分类研究主要针对于平衡数据集,但在实际应用中,不平衡数据集大量存在。所以,对不平衡数据集的分类研究具有实用价值。一般的分类研究是以提高数据集整体的分类准确率为目标。但对于不平衡数据集,该目标会使分类效果偏向于样本数量多的类别。并且在很多实际情况下,把一个少类(训练样本数量少的类别)样本判为多类(训练样本数量多的类别)样本的代价要大于把一个多类样本判为少类样本。因此对不平衡数据集的分类研究应该侧重于提高对少类样本的识别能力。目前对于不平衡数据集分类的研究方法主要有2种,分别是数据层面,算法层面。本文从特征选择层面出发,提出了一种特征选择方法,面向识别少类样本特征选择方法。针对于不平衡数据集,把少类作为正类,旨在提高分类的少类F值。本文首先从网络中获取新闻文本。接着依据新闻的主题把新闻文本分为经济类和非经济类并对实验文本进行分词和词汇过滤,把经济类作为少类,非经济类作为多类。接着依据4种特征选择方法从训练文本集中选取出N个特征词汇,把每个文本表示为特征词汇向量。然后依据新闻文本的类别对该特征词汇向量打标。最后使用标记的特征词汇向量采用支持向量机分类算法训练分类模型,并对模型性能进行测试。本文使用的特征选择方法有卡方检验、信息增益、互信息和面向识别少类样本特征选择方法。实验结果表明采用卡方检验、互信息和信息增益,少类F值最高能到达0.65。而采用面向识别少类样本特征选择方法,少类F值最高能到达0.79。
其他文献
毛竹生化组分含量直接影响和制约着植被生理生态过程,在生态系统的物质和能量循环中发挥着重要作用。准确掌握毛竹生长动态对于提高其经济和生态效益具有重要意义。本研究针
传染性疾病一直是威胁人类健康以及财产安全的一大类疾病。对于传染性强的病原体,快速灵敏可靠的检测方法不仅有助于疾病的快速诊断和及时治疗。此外,可以对患有传染性疾病尤
随着居民财富的不断增长,客户金融服务需求日趋多元化,外部竞争环境的持续变化,导致市场中金融产品和服务供大于求,创新和差异化服务成为国有商业银行持续发展的核心驱动力。
洞庭湖为我国第二大淡水湖,由于人类活动和气候变化,生态环境发生了改变,尤其是洪水、干旱等极端天气频繁的出现,对湿地植被产生了重要影响。水位是湿地最为关键的生境因子,
随着机器视觉技术的发展,将机器视觉与机器人技术相融合,可以大幅度提高机器人的智能化水平。本文主要是将机器视觉技术与机器人系统相结合,以双目视觉技术为依托,结合固高GR
光伏逆变器作为光伏发电的重要组成,主要承担着电能变换的作用,是将光伏直流电转换成交流电的主要设备。其中级联型逆变器由于具有多电平、模块化、易扩展、大容量的诸多优点
随着半导体照明技术的发展,LED照明技术应用前景也逐渐凸显出来。与传统的照明技术相比,LED作为光源具有功耗低、使用寿命长、环保、安全等特点。所以LED照明已成为当代研究
建筑业是我国国民经济的重要组成部分,虽然近几年我国的建筑安全管理工作已经取得了显著成效,但是安全管理工作整体上来说仍处于粗放状态,建筑安全管理问题依然面临着严峻的
城市微气候的良好营造有利于城市的宜居性,尤其是在严寒地区城市营造良好的微气候环境显的尤为重要。在城市中能够影响其微气候的重要因素有建筑、硬质铺装、绿化、水体等,水
X2YZ型Heusler化合物(X和Y是过渡金属元素,Z是主族元素)具有优异的磁性能和电性能,其潜在的应用价值引起了科学家们的兴趣。迄今为止,研究者们已经通过真空电弧熔炼法、高能球