基于非平衡数据集聚类案例推理的企业失败预警

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:jake9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
案例推理(Case-Based Reasoning, CBR)是商业预测领域的预测方法之一,它在保持较好预测性能的同时可对预测结果做出解释。企业经营中,失败企业比例小,正常企业比例大,但一个企业的失败所造成的损失不可小觑,故构造一个对少数类有较高预测准确率的方法是非常有意义的。对于由少数类和多数类组成的商业预警问题,构建的方法往往是基于平衡数据集的假设,因此在解决非平衡数据集问题时对少数类的预警不理想。对此问题,本文集成聚类算法到案例推理中,设计了聚类案例推理方法CCBR(ClusteringCBR)。CCBR方法首先将案例库中案例通过层次聚类算法形成若干个案例类,并计算得到每个案例类的聚类中心;在案例检索时,将目标案例与这些聚类中心进行最近邻案例类检索,找到最相似的案例类后,再在该类内检索出若干个近邻作为匹配案例对目标案例进行预测。基于四个非平衡数据集,本文将CCBR方法与传统案例推理方法CBR、SVM方法、LOGIT方法和MDA方法做了对比。实验结果表明,CCBR方法可显著提高CBR预测非平衡数据集中少数类案例的召回率。鉴于非平衡数据集中的少数类的重要地位,正确识别少数类反映了所构建方法的预警性能及其应用价值。传统消除数据集非平衡性的方法有过学习或信息丢失等缺陷,同时失去了对现实数据分布的真正模拟。相比较而言,通过算法的改进来处理非平衡数据集具有更好的问题针对性,CCBR正是通过算法的改进来直接处理非平衡数据集的方法。通过实验结果的对比分析可看出CCBR的优势:对于非平衡数据集,CCBR可一直保持相对较高的召回率,即对案例数目较少的类有较高的检对率。本研究中t-1和t-2数据集是企业失败前一年数据和前两年非平衡数据集,通过应用CCBR方法,这两个数据集可以及时地在前一年或前两年对企业危机做出预警,积极地防患于未然。在文章结构安排上,本文首先指出了选题背景和研究意义,对有关非平衡数据集的分类预警、案例推理的性能研究、聚类算法在案例推理中的应用和企业失败预警方法的研究状况作了回顾,并结合本文的研究实际,说明了文中用到的研究领域和方向。其次,对案例集中指标属性的选取和属性规范化方法做了研究。然后对聚类案例推理的基本原理做以介绍,说明聚类案例推理算法中案例类的生成、聚类数目的确定、案例类和案例的检索以及预警。最后,对初始案例库做以简单介绍,进一步说明了实验中所使用的属性规范化方法及性能评估指标,并给出了CCBR方法与CBR、SVM、 LOGIT和MDA方法的性能对比试验结果和分析说明。通过20个目标案例,初步考察了CCBR方法的实用价值。
其他文献
伟大的科学家爱因斯坦说:“我没有什么特别的才能,不过喜欢寻根刨底地追究问题罢了。”诺贝尔奖金获得者李政道先生讲过:“做学问,先学问,只学答,非学问。”可见,一个人善于不善于发
一、选择优秀的英语视听说教材,创造良好的语境。在非英语环境下学习英语口语,教材的选择是关键。优秀的英语听说教材能够为学习者营造出一个良好的英语语言环境,是进行口语训练
学起于思,思源于疑.常常质疑,会使学生处于自发求知的状态,从而激发其学习兴趣.
那年春天,高考名落孙山的我是怎样怀着一颗破碎的心来到一个小桥流水人家的小村报到,又是怎样给学生上完我有生以来的第一堂课,如今已记不清了.
兴趣常常是引起无意注意的重要源泉.在小学低年级音乐教学中应特别注重对学生学习兴趣的培养.
九年义务教育五年制小学数学教材第六册“乘法的一些简便算法”例2的一个教学片段为:
九年义务教育五年制小学数学教材第八册“三角形面积的计算”的一个教学片段为:
解题导入教师开门见山直接揭示课题,然后由课题引出全文教学的重点,激发学生求知欲望。如教学《看戏》时,单刀直入告诉大家今天学《看戏》,再指出看戏离不开观众和演员,要写好看戏
九年义务教育五年制小学语文教材第八册的一个教学片断为:
学校坐落在山坡上,没有围墙,透过宿舍的窗可以望见坡下的草地和稻田,以及远处的溪流和绿树掩映的村庄.