论文部分内容阅读
数据分类是数据挖掘领域的一个重要课题,目的在于根据数据集的特点产生一个分类模型,把数据库中未标记的数据映射到给定的具体类别中的某一个。分类的技术主要有两类,一类是基于传统技术,只适合处理确定性的问题;另一类是基于软计算技术,可以灵活处理不确定性,不完整性以及非均匀性的数据。粗糙集是软计算方法中处理不确定性数据的数学工具。粗糙集是在不影响分类能力的情况下,通过属性约简的方式删除知识库中的冗余信息来导出问题的决策或分类规则。属性约简问题是粗糙集理论研究的主要内容之一,已经被证明为NP-hard(?)司题。常用的属性约简算法包括基于差别矩阵的基础算法和基于某种属性重要度的启发式算法等。本文首先介绍了经典的属性约简算法并分析了各自的优缺点,然后将粗糙集的最小属性约简问题和组合优化中的最小集合覆盖问题联系起来。先分析证明了属性约简问题和集合覆盖问题的等价性,在此基础上提出了一种基于改进的相关矩阵的属性约简算法,即先对决策表进行简化,然后对相关矩阵进行预处理,这样有效的避免了空元素和重复元素的存在,经处理后的相关矩阵比传统相关矩阵更简单,在其基础上实现了最小属性约简算法,能够快速求出决策表的最小属性约简并且节省了存储空间。理论分析和实验表明,基于改进的相关矩阵的属性约简算法可减小属性约简的搜索空间,提高约简的效率。由于粗糙集对噪音敏感,在噪声大的环境中存在分类不精确的问题,需要与其他软计算理论和方法相结合。使用神经网络分类时,如果文本特征维数过高就容易导致神经网络不易收敛,文本分类精度低,学习时间太长。所以本文在文本分类中将粗糙集理论和神经网络结合起来,提出了新的分类模型,即粗糙集-神经网络分类模型,把粗糙集的属性约简作为神经网络的前端,将经过特征选择的向量空间模型转化为决策表并离散化,然后对其进行属性约简,以便降低特征空间的维数,缩短神经网络的学习和训练时间,提高分类的精度。最后用该模型对复旦大学李荣陆提供的中文分类语料库进行了文本分类,实验结果表明,该分类模型有更高的分类准确率、召回率和F1值。最后,结合北京慈铭健康体检集团的实际数据库,运用粗糙集-神经网络分类模型进行体重预测,准确率达到了77.6%。