基于正则化交叉验证的静态软件缺陷预测方法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:gzlwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测技术是利用软件度量来构建软件缺陷预测模型,并预测软件系统中潜在缺陷的技术,它能够帮助我们定位缺陷位置,有利于合理分配资源,节省时间,提高软件开发的效率。本文基于正则化m×2交叉验证,在软件缺陷个数预测建模中,给出一种基于最大信息系数的特征选择方法;在缺陷倾向性预测建模中,给出了一种采用投票的集成分类器,并通过实验验证了方法的有效性。在缺陷个数预测中,由静态代码提取的类层面度量元(特征)以及由方法聚合(sum,avg,max,min)到类的特征往往较多,使用传统的特征选择方法(如AIC、BIC)通常先要确定了模型,不同的模型选出的特征集差异较大,且模型的可解释性差。最大信息系数MIC(Maximal Information Coefficient)是David等人提出的度量两个连续变量之间相互依赖程度的一个指标,且有基于观测数据的计算办法。本文基于软件缺陷个数与各特征的MIC度量先选择特征,再对所选特征进行了适当的幂次变换,最后使用主成分泊松和负二项回归建模。本文实验基于NASA的KC1的类层面数据集,采用了m?2交叉验证的序贯t-检验来对两模型的性能差异的显著性进行检验,模型性能评价指标采用FPA、AAE、ARE。实验结果表明:1)基于MIC选出的特征主要是sum、avg、max三种聚合模式特征,与AIC、BIC方法有明显的差异;2)对特征做适当的幂次变换在多数模型下可以改善其性能;3)对特征做幂次变换后,做主成分分析与因子分析可以得到两个明显的因子,其一个因子正好对应avg与max聚合模式的特征集,另一个因子正好对应sum的聚合模式特征集,使得模型具有较好的可解释性。综合实验的各项指标可以得出,sum、avg、max三种聚合模式对软件缺陷预测有显著作用,且基于MIC所选特征而构造的模型是有优势的。在缺陷倾向性预测中,对给定的分类器和数据集,本文基于正则化m×2交叉验证对数据切分,在训练时结合使用随机下采样(random undersampling)策略,以m个混淆矩阵的结果采用多数投票法(majority vote)构建了一个集成的分类器;为了验证其性能,我们在NASA的4个分类数据集,7种分类器上进行了实验,以P,R,F1值,AUC为性能评价指标;实验结果表明,随着m的增大,这种集成分类器的性能逐渐趋于稳定,并可以显著提高预测的性能;特别是当分类器为决策树时,其性能提高尤其明显。
其他文献
由于山东省现代服务业的发展尚处于相对滞后的状态,如何基于"互联网+"实现山东省现代服务业的转型升级,推动山东经济社会向更高层次、更高水平迈进,是本文研究的首要任务。通过
我国是世界上地震活动强烈和地震灾害严重的国家之一,尤其是在地震多发地区,地震灾害时刻威胁着人民的生命财产安全。由于地震孕育机理十分复杂,地震预测仍然是一个需要通过
现阶段,我国市场经济进程不断加快,国内化工企业的发展也越来越迅速,其生产的化工产品在市场中的占比也进一步提高,然而化工企业生产过程中的安全生产管理工作并没有与日渐壮
介绍了光伏发电系统的物理结构和光伏逆变器控制策略典型的三环结构,阐述了基于VSG控制策略的电压环和电流环双闭环系统。随着光伏发电渗透率不断提高,系统的转动惯量逐渐减
天然牧草青贮可以较好的保存天然牧草中的营养成分,是一种高效的牧草加工和贮藏方式,是草原牧区现代化畜牧业发展的重要趋势之一,因此本试验以河北坝上御道口牧场草甸草原牧草为青贮原料,采用三因素完全随机设计,选择切割长度A(A1整株、A2 5~8cm)、水分含量B(B1 55%~60%、B2 60%~65%、B3 65%~70%)、青贮密度C(C1 350~400kg/m3、C2 400~450kg/m3
伴随着化工行业的迅速发展,安全生产管理愈发得到人们的广泛关注。做好化工工艺设计中的危险识别与控制直接关系到化工装置能否长周期、平稳、安全运行。文章论述了化工工艺