论文部分内容阅读
随着网络信息技术的发展和普及,互联网已经发展成为当今世界上资料最多、门类最全、规模最大的异构、动态和开放的分布式资源库。有序性数据是互联网中广泛存在的一类数据,如仓储与物流、生态农业、投资风险分析等。多规则有序决策已成为Web信息知识发现中非常重要的研究方向。粗糙集理论采用粒化和近似的基本思想来刻画分类问题中的不一致性,是解决不确定分类问题的有效工具。信息熵是信息不确定性的重要度量工具。本文基于粗糙计算方法论中粒化和近似的思想,结合信息熵对不确定性的度量能力,对多规则有序列决策问题进行了深入研究,建立了多规则有序决策的粗糙集模型和信息熵方法。具体从以下几个方面进行了探索:第一,建立了多规则有序决策的多粒度偏好关系粗糙计算模型,设计了粒结构选择算法。传统的偏好(优势)关系是一种不严格的偏好表示方法,论文将传统的偏好关系拓展到严格的偏好关系,改进了偏好关系粗糙集模型,并将其扩展到了多规则有序决策领域,建立了多粒度偏好关系粗糙集模型。在现在偏好关系粗糙集中,如果一个样本要属于某偏好集的下近似,则要求所有比此样本差的样本都包含在该偏好集中,这样的下近似是没有任何意义的。改进后的偏好关系粗糙集模型克服了这一问题。如果一个样本要属于某偏好集的下近似,只要存在比该样本差的样本属于此偏好集就可以了,这更加符合实际情况。考虑到不同规则的费用和成本问题,还建立了费用敏感的多粒度偏好关系粗糙集模型。此外,还将建立的模型应用于粒结构选择,并设计了粒结构选择算法。第二,建立了多规则有序决策的多粒度模糊偏好关系粗糙计算模型,设计了偏好决策和样本压缩方法。经典的偏好关系粗糙集基于传统的偏好关系,只能表示数据之间的序关系,不能体现数据之间偏好的程度。针对现有模糊偏好关系粗糙集模型在上下近似方面与传统粗糙集思想相悖的情况,引入加性一致的模糊偏好关系,提出了改进的模糊偏好关系粗糙集模型,并将其扩展到了多规则有序决策领域,建立了多粒度模糊偏好关系粗糙集模型和费用敏感的多粒度模糊偏好关系粗糙集模型。基于提出的模型,设计了偏好决策和样本压缩算法。第三,提出了偏好不一致熵的概念,建立了多规则有序决策的信息熵模型,设计了属性约简算法和样本压缩算法。将香农信息熵扩展到有序决策领域,用偏好不一致熵来度量有序决策系统中偏好的不一致性和不确定性。偏好不一致熵是基于属性的,能够有效度量有序决策系统中由于条件属性与决策的偏好不一致导致的决策不确定性,能够很好地反应条件属性在有序决策中的重要程度,在特征选择和属性约简方面有比较好的效果。第四,定义了样本的偏好不一致熵,并扩展到加权的偏好不一致熵,提出了样本的偏好决策算法。基于属性的偏好不一致熵在样本的有序决策方面能力不足。针对偏好不一致有序系统中的样本决策问题,基于偏好信息粒子和样本的偏好不一致度,定义了样本的偏好不一致熵。样本的偏好不一致熵关注的对象是样本,能够度量特定样本引起的偏好不一致,在有序决策系统中的样本分类方面具有较好的效果。当基于全局偏好不一致熵进行分类时,能够得到与原始决策比较接近的结果。第五,提出了一种基于粗糙集的最近邻样本压缩方法(FRSC算法)。最近邻分类规则的时间复杂度和空间复杂度均与训练样本集的样本数量密切相关。随着样本数量的增加,所需要的时间和空间迅速增大。而在最近邻分类规则中,决定分类结果的往往是处于决策边界的样本。因此计算训练集的一致子集是提高最近邻分类规则效率的重要途经。粗糙集理论是通过上近似和下近似来对决策空间进行逼近,处于决策边界区域的样本往往都是下近似比较小的样本。将粗糙集方法应用于最近邻规则的训练集压缩,是一种快速计算训练集一致子集有效方法。与最近邻规则类似,在粗糙集方法中,计算上近似和下近似的时间也随训练样本数量呈指数增长。而决定上近似和下近似的同样也是决策边界的样本。因此本文提出的最近邻样本压缩方法对粗糙集的应用同样具有重要意义,可以有效提高粗糙计算效率。本文从粗糙集和信息熵两个角度对多规则有序决策问题进行了研究,建立了多规则有序决策的多粒度偏好关系粗糙计算模型和模糊偏好关系粗糙计算模型,定义了偏好不一致熵和样本的偏好不一致熵,形成了解决多规则有序决策问题的粗糙集和信息熵理论。