论文部分内容阅读
近红外光谱(NIRS)产生于分子振动,吸收较弱,吸收峰严重重叠,且多组分复杂样品的近红外光谱往往不是各组分光谱的简单叠加。因此,近红外光谱分析法必须借助化学计量学方法才能进行定性定量分析。本论文针对复杂样品的近红外光谱分析中的问题,开展了多模型共识偏最小二乘(PLS)建模方法、多模型共识最小二乘支持向量回归(LS-SVR)建模方法以及波长筛选方法的研究,同时对Boosting建模方法进行了研究,并用于近红外光谱复杂植物样品的定量分析中。主要包括以下研究内容:
1.总结了近红外光谱分析技术的发展及应用,综述了近红外光谱定量分析中常用的化学计量学建模方法、光谱预处理方法以及波长选择方法。
2.基于多模型共识建模的基本思想,采用随机抽样技术选择训练子集,建立了多模型共识偏最小二乘(cPLS)建模方法,并应用于烟草样品近红外光谱与氯含量之间的建模研究。该方法利用同一训练集中的不同子集建立多个模型同时进行预测,将多个预测结果的均值作为最终结果。该方法的特点是通过多次使用训练集中不同子集样本的信息,降低了预测结果对某一样本的依赖性。研究结果表明,cPLS建模方法与传统的偏最小二乘(PLS)建模方法相比,所建立的模型更加稳健、可靠,预测结果也得到了明显改善。
3.最小二乘支持向量回归(LS-SVR)算法与多模型共识原理结合,建立了多模型共识LS-SVR方法。该方法采用随机取样技术,选取一定数目的训练样本作为训练子集,建立相应的LS-SVR回归模型,从中选择部分预测性能较好的模型共同预测未知样本。该方法的特点是能更有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系,在一定程度上弥补了单模型方法的不足。将该方法应用于烟草样品近红外光谱与还原糖含量之间的建模研究,结果表明,与传统的LS-SVR和PLS方法相比,多模型共识LS-SVR方法预测精确度更高,也更加稳健。
4.通过挑选代表样品性质特征的波长(变量),代替全部光谱去建立模型,会得到质量更好的校正模型。基于Monte Carlo(MC)技术和无信息变量消除(UVE)方法,建立了一种改进的MC-UVE算法,并应用于烟草样品近红外光谱与尼古丁和总糖含量之间的建模研究。该方法采用MC技术从训练集中选取大量的训练子集,然后根据模型的回归系数计算出每个变量的稳定性,代替UVE中用留一交叉验证法计算变量的稳定性。而且MC-UVE不采用在光谱中添加随机噪声变量,而是直接采用由稳定性值的大小确定变量的筛选。MC产生的多个模型比单一模型能更有效地反映出自变量和因变量之间的复杂关系。因此能更合理、可靠地估计每个变量的稳定性,有望解决过拟合问题。而且当数据集较大时,MC-UVE的计算速度要明显优于UVE算法。研究结果表明,当取得和UVE相当的预测效果时,MC-UVE选择的变量数目更少。另外,与小波变换结合,建立了WT-MC-UVE方法。与MC-UVE相比,预测模型更加简洁和高效。
5.基于Boosting算法的基本原理,将AdaBoost与PLS回归算法相结合,建立boosting-PLS算法(简称为bPLS),实现了对复杂植物样品近红外光谱中糖和尼古丁含量的测定。该方法用训练集样本的相对预测误差,调整训练集中每个样本的取样权重,算法过程简单直观。被预测样本的相对误差越大,则在下一轮学习时,样本的取样权重将越大。bPLS算法与consensus-PLS(cPLS)算法以及传统的PLS方法的预测结果进行了比较。结果表明,bPLS模型稳健、可靠,取得了更小的预测均方根误差(RMSEP)。bPLS算法为近红外光谱的定量回归分析提供了新的途径。
6.将DT(Delaunay triangulation)技术引入近红外光谱的定量分析中,对PLS-PC-DT方法进行了探索,并应用于玉米样品近红外光谱与水份、油、蛋白质以及淀粉含量之间的定量分析。该方法无需构建校正模型,并且只需要使用很少的主成分数目,就可以实现对样品的预测。传统的DT方法在主成分空间构建网格,而PLS-PC-DT方法用PLS得分矢量代替PCA得分矢量,在PLS-PC空间构建DT网格。与传统的DT方法相比,模型的预测精度更高。