论文部分内容阅读
随着大数据时代的到来,“维数灾难”成为困扰研究者的问题。面对:“维度灾难”,为了能够高效准确对数据进行分析挖掘,目前研究者采用特征选择方法对数据进行降维处理。随着研究深入,出现了很多特征选择算法,但各种方法都有其一定程度上的局限性和缺陷。为了能够高效准确地获得最优特征子集,使得数据分析挖掘获得更高性能,本文提出一种基于直觉模糊熵的特征选择算法。首先论文提出的特征选择算法,利用直觉模糊C均值聚类算法求得每个特征数据对类标的直觉隶属度,其次通过求得的直觉隶属度计算出特征所对应的直觉模糊熵,最后将熵值的大小作为特征选择的评价测度,特征直觉模糊熵越小,特征的识别区分度越大,对数据分类贡献越大,以此完成对原数据的特征选择。通过实验对20-newsgroups高维数据集进行特征选择,获得最优特征子集,然后用最优特征子集构造KNN及SVM分类器,再用分类器对20-newsgroups数据集进行分类,将分类的结果用分类器评价指标准确率,及精确率和召回率的调和平均值F1分数进行性能评价。通过实验验证了提出算法对高维特征的数据进行特征选择时,具有较好的表现,且优于一般的特征选择算法。总的来说,该论文研究提出的基于直觉模糊熵的特征选择算法解决了分类器处理高维数据集低效的问题,论文贡献点如下:1、通过直觉模糊集与信息熵理论相结合,利用隶属函数和非隶属函数共同表征直觉模糊集的不确定性对直觉模糊熵的影响,故将这种特征对类标的模糊性的描述作为特征选择的评价测度;2、对于直觉隶属函数的构造,目前还没统一的数学模型,该论文提出一种利用直觉模糊C均值聚类算法对隶属函数的生成方法。