论文部分内容阅读
近红外光谱法(near infrared spectroscopy,NIRS)是一种快速无损的分析技术,建立稳健可靠的模型是近红外(near infrared,NIR)应用的前提。近红外定量模型的建立包括样本集的划分、光谱预处理、变量筛选、校正等过程,各建模过程中包含多个建模参数,选择最佳的建模参数有助于提高模型的准确性和稳健性。现有文献中多以模型的预测结果为评价指标优选建模参数,缺少对参数稳健性的评价,且涉及多个建模参数的优选时,常用分步优化方法优选建模参数组合。因此,基于以上问题,本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,建立关键建模参数光谱预处理和变量筛选的稳健性评价方法,并利用系统科学思想基于系统要素与要素的关联性提出参数轨迹全局化方法优选建模参数组合,在此基础上,将参数轨迹全局化方法引入校正子模型的建立中,基于系统要素与要素的层次性提出串联和并联两种模型融合方法,以期提高模型的稳健性和准确性。主要研究内容包括以下四个部分:一、基于统计分析和共线值的中药NIR数据结构分析研究本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,采用统计分析和共线值初步分析两套数据的数据结构,对玉米和银黄颗粒数据的指标成分水分和黄芩苷含量进行统计分析,水分及黄芩的含量范围分别为9.38-10.99(%,w/w)和1.61-6.66(%,w/w),其平均含量分别为10.23%和3.83%,且水分和黄芩苷均为正态分布。对玉米和银黄颗粒光谱数据进行共线值分析,玉米和银黄颗粒数据第一主成分和第二主成分的累积贡献率分别为99.84%和99.04%,且第一潜变量光谱矩阵得分与指标成分含测值得分的结果表明玉米和银黄颗粒数据均为少样本弱数据结构。二、基于四种噪音的中药NIR定量建模关键参数稳健性研究本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,通过添加模拟的高斯噪音、光程噪音、光散射噪音及其组合噪音至验证集、校正集和验证集中,以模型的预测能力和模型的多变量检测限为评价指标比较不同预处理方法的稳健性,并以模型的预测能力和筛选变量的重现性比较不同变量筛选方法的稳健性。两套数据的结果显示:标准正则变换(standardized normal variate,SNV)和多元散射校正(multiple scattering correction,MSC)预处理方法比一阶导数(first derivative spectrum,1D)、二阶导数(second derivative spectrum,2D)和 SG 平滑(Savitzky-Golay filter smoothing,SG(9))预处理方法较稳健,变量投影重要性(variable importance in projection,VIP)变量筛选方法比竞争自适应重采样方法(competitive adaptive reweighted sampling method,CARS)、无信息变量消除法(uninformative variable elimination,UVE)和组合间隔偏最小二乘(synergy interval partial least square,SiPLS)变量筛选方法较稳健。上述内容建立了光谱预处理和变量筛选方法稳健性评价方法,通过噪音同时添加至验证集和校正集,并选用两个评价指标系统地比较不同方法的稳健性,为光谱预处理方法及变量筛选方法的优选提供一定的指导。三、基于中药NIR定量建模参数关系建模方法及其稳健性研究本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,分别采用分步优化及本文利用系统科学思想基于系统要素与要素的关联性提出的参数轨迹全局化方法优选建模参数组合,建立玉米及银黄颗粒指标成分水分及黄芩苷定量模型,并通过向验证集、校正集和验证集中添加模拟噪音方法比较各方法所得模型的稳健性,结果表明参数轨迹可得多个较优建模参数组合,且最佳建模参数组合所得模型稳健性和准确性均优于分步优化所得模型。以上结果说明过程轨迹用于优选建立定量模型的可行性及优势,基于过程轨迹系统优选建模参数可用于建立稳健准确的模型。四、基于串并联结构的中药NIR定量模型融合方法及其稳健性研究本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,将参数轨迹全局化方法引入校正子模型的建立中,基于系统要素与要素的层次性提出串联和并联两种模型融合方法,以预测均方差(the rootmean square error ofprediction,RMSEP)、验证集相关系数(the correlation coefficient of validation,Rpre)和预测残差偏差(the ratio of standard error of prediction to standard deviation,RPD)为评价指标,建立玉米及银黄颗粒指标成分水分及黄芩苷参数轨迹全局模型、Bagging模型和串并联模型,并通过添加模拟噪音至验证集、校正集和验证集的方法比较各模型的稳健性。结果表明,采用串并联方法可用于建立稳健准确的定量模型,尤其是串联模型融合方法所建定量模型稳健性和准确性均优于单一模型和Bagging模型。综上,本文以开放玉米NIR数据及中药银黄颗粒NIR数据为研究载体,分析两套数据的数据结构,建立关键建模参数光谱预处理和变量筛选方法稳健性评价方法,为单个建模参数的选择提供指导,此外,利用系统科学思想基于系统要素与要素的关联性提出的参数轨迹全局化方法优选建模参数组合,在此基础上,将参数轨迹全局化方法引入校正子模型的建立中,基于系统要素与要素的层次性提出串联和并联两种模型融合方法,并通过添加模拟噪音的方法比较各模型的稳健性,结果表明所提出的参数轨迹全局在优化建模参数组合,及串并联模型融合方法在建立融合模型方面有一定的优势。该研究为建立中药近红外定量模型过程中,参数的评价和选择、参数组合的优选及建立融合模型提供依据和指导。