面向药品监督的近红外光谱深度学习建模方法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:w332365605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
假药是世界各国共同面临的难题,2018年全球报道的假药事件就有4405起,在五年内已增长102%。我国从“十一五”至“十三五”国家药品安全规划都强调要严厉打击制售假劣药品等违法违规行为。近红外光谱(NIRS)分析技术因具有方便、高效、准确、成本低、可现场检测、不破坏样品、不消耗化学试剂和不污染环境等优势,从2004年起就被中国食品药品检定研究院应用于全国车载近红外药品快速分析系统,并装备于全国363个地市的400余台药品检查车。近红外药品快速分析系统通过定性方法来判断药品真伪,确定药品与其标签标示名称是否一致,通过定量方法来测定药品关键指标成分的含量,从而快速检验药品质量或判别药品是否为特定企业产品。目前,该系统保障了我国用药安全,节约了大量检测费用,积累了大量的现场快速检测获得的光谱数据和对应的实验室分析验证数据。但随着制假水平的提升,市场上更多的是以次充好或质量不达标的劣药,这些药品和真药有着相似的化学成分,鉴别他们难度更大,因此以下问题仍制约着NIRS分析技术在药品质量监督领域的大规模、深入应用和推广:1)NIRS分析技术作为一种间接测量方法,无法直接分析出被测样本的含量或类别,它依赖于化学计量学或者机器学习方法,其应用效果受制于建模方法及模型性能;2)在鉴别某一种药品时,进一步识别出生产厂商有利用于药品质量溯源,然而,同一品种不同厂商药品NIRS差异较小,并且全国药品品种、厂商繁多,需要收集大量样本并建立海量的独立鉴别模型,对分类算法的识别准确率和建模成本要求都非常高,目前也尚未见有适用于多品种、多类别的建模方法报道;3)建立准确的定量模型通常需要用湿化学方法测定大量样本的特定成分的准确含量作为参考值,该工作成本高且耗时,迫切需要一种能显著减少样本参考值测定需求的准确、稳定的通用建模方法;4)NIRS分析普遍存在模型不能跨机型、跨台应用的痛点,不利于大规模应用和推广国产近红外光谱仪,经典的模型转移方法对不同品种和不同厂商仪器之间的模型转移的研究较少,效果还不够好,前期积累的大量NIRS和检测数据无法被应用到新仪器或新品种的建模过程,不能达到节省建模成本和提升模型预测精度的目标。基于这些问题,本文围绕药品监督应用中NIRS建模的定性分析、定量分析和模型共享传递三个关键问题,从分类、回归和迁移学习三个方面开展研究,分析总结经典NIRS建模方法,进一步提出多种新颖有效的建模方法:(1)提出基于正则化监督字典学习的NIRS分类方法。药品监督过程中,真假药二分类判别法无法获取假药生产商信息并用于溯源;采用同品种多厂商分类的方法又因同一品种的NIRS活性成分特征峰重叠严重,类间差异不明显,而同品种同厂商的药品,又因批次、测量仪器或环境的不同导致光谱存在类内差异,致使分类困难、预测准确率不高。为了进一步提高同一品种多厂商的药品NIRS分类准确率,本文在具有较高的分类准确率的稀疏表示分类法(SRC)基础上,利用监督字典学习法可增加类间差异的优势,提出一种新的稀疏分类机制,为监督字典学习的目标函数增设了表示约束项和系数不相干项两个正则化项以描述类内差异性,通过这两个正则项可以得到编码系数的重构误差和相似样本之间的相关性,提高了数据的线性可分性和模型的预测准确率。本文提出的方法对同一品种不同厂商的药品进行多分类,其分类准确率比SRC、SVM和LC-KSVD等高2.26%~6.52%。在烟草数据集上验证该方法,其分类准确率相比其它方法高1.0%~10.7%,表明本文所提方法对NIRS分类具有一定的普适性。(2)提出结合CNN和NIRS的多品种多厂商药品精细分类方法。我国药品的品种、厂商繁多,药制企业超过7000家,常见品种也有上千种,若同时识别药品的品种和厂商,则需建立大类别数的分类模型;经典的多分类方法随着类别数量的增加,分类准确率大幅降低,不适合不同品种不同厂商药品分类。卷积神经网络(CNN)能进行端到端的学习和特征提取,具有极强的建模能力,二维CNN已在图像分类等领域取得较大成功,但将一维的NIRS转换为二维数据后采用现有的二维CNN模型进行分析,存在机械套用、计算开销大的问题。本文提出一种一维CNN光谱分类模型,可有效削弱因原辅料、测量环境和测量仪器等因素导致的NIRS差异影响,从而对多品种多厂商药品的NIRS精细分类具有较高的准确率,可根据未知药品的NIRS识别出其品种和生产商,便于对假药溯源并从源头治理。通过对2种药品共18个生产厂商进行18分类实验,当70%的样本作为训练集时,CNN的分类准确率为99.37±0.45%,比SVM、BP、自编码(AE)和极限学习机(ELM)的高4.04%~20.83%,说明本文所提出的方法具有更高的分类准确率、良好的鲁棒性和可扩展性,适用于多品种、多厂商的药品鉴别任务,亦可应用于其它领域的NIRS数据分析,也为接下来的深度迁移学习打下基础。(3)提出基于CNN-SVR的NIRS回归方法。多元线性回归(MLR)、偏最小二乘(PLS)等常用线性回归方法依赖于经验选取合适的预处理方法,线性模型的本质决定了其预测误差水平,还存在已有模型不能适配其它仪器的问题。虽然深度学习已被验证具有很好的特征提取能力,NIRS经CNN提取后的特征可直接应用于MLR实现端到端的分析,但是模型仅适用于同一厂商的单台仪器,对训练集的数量也有一定的要求,模型的泛化能力和鲁棒性也未能验证,不能建立一个能适用多台仪器鲁棒性强的回归模型。本文提出一种CNN-SVR建模方法,该方法由CNN提供端到端自动特征提取能力,SVR提供小样本学习能力,在CNN网络中将SVR应用于输出层并约束网络训练过程,通过L2正则化惩罚网络中过大的权值,通过ε-不敏感损失使得算法具有样本稀疏性。当仅使用IDRC 2002数据集中15%(96个)样本进行模型训练时,CNN-SVR模型的 RMSEP=3.018、R2=0.969,CNN、PLS 和 SVR 的 RMSEP比CNN-SVR大11%、30%和20%。实验结果表明,所提出的CNN-SVR算法对网络中的超参数不敏感,在小样本情况下也能训练出预测误差较小的模型,还可提取出样本本身的光谱特征,削弱光谱仪的台间差异,在一台仪器建立的模型可以直接预测同一厂商不同仪器没得的光谱,且R2最高可达0.979。总体来说,CNN-SVR具有更好的鲁棒性和可扩展性以及更高的预测精度,可实现端到端的定量分析。(4)提出基于迁移学习的NIRS建模方法。传统的药品鉴别方法每个品种都需要收集大量样本来建模,样本收集和建模成本高,前期积累的大量NIRS和检测数据不能很好应用到新仪器或新品种的建模过程。此外,测量仪器、环境和原辅料的差异影响着样品的光谱,可能会导致已建立的模型失效,虽然一些经典的模型转移方法能很好的解决同一厂商同一型号不同仪器之间的差异问题,但在不同厂商仪器间进行模型转移的效果并不理想。CNN能由浅到深逐层抽取数据特征,不同厂商仪器、不同品种药品的NIRS的浅层特征相似,因此,可充分利用已有大量标注数据(源域)训练的模型浅层信息,将其迁移到少量样本建模领域(目标域)。本文提出基于迁移学习的NIRS建模方法,通过共享模型中浅层卷积层参数,利用少量目标域已标记样本,运用迁移学习方法重新训练全连接层网络参数。首先实现药品品种间的分类模型迁移,将已有品种的分类模型迁移至新品种,当使用目标域药品30%的训练集时,迁移学习模型比使用CNN、SVM、BP、AE和ALM方法重新建模得到的分类正确率最多高2.49%~33.55%。然后实现仪器间的回归模型迁移,在同一厂商相同型号间的迁移实验中(IDRC 2002数据集),最小RMSEP=2.501,其他模型转移方法比迁移学习的RMSEP大8%~84%;在不同厂商仪器间的迁移实验中(IDRC 2016数据集),最小RMSEP=0.163,其他模型转移方法比迁移学习的RMSEP大51%~305%。结果表明,该方法在较少训练集的情况下也能训练出预测能力很好的模型,大大减少了对标注NIRS数据的依赖,并成功解决因测量仪器、测量环境改变而导致模型失效的问题,当目标域训练集样本增多时,使用目标域训练集进行迁移学习的模型预测能力优于重新建模。综上所述,本文所提出的方法较好地解决了 NIRS应用于药品监督时所遇到的多类精细分类、高精度回归、模型转移等重要问题,同时也验证了本文所提出的方法能够适用于其它领域的NIRS建模分析,具有很强的普适性。本文研究内容有望解决NIRS、红外、拉曼等分子光谱建模的共性难题,为相关领域的科研人员提供了许多有价值的线索,也为未来的研究工作奠定了基础。
其他文献
背景与目的:数字乳腺体层合成(digital breast tomosynthesis,DBT)可提高病灶的检出率,目前已应用于乳腺癌筛查及人群诊断.针对DBT三维图像,探讨应用影像组学对乳腺肿块病变的鉴别诊断价值.方法:回顾并分析2019年4月—2020年8月于复旦大学附属肿瘤医院行DBT检查并经手术后理学检查证实的患者资料,选取DBT表现为肿块征象的143例女性患者入组.对所有患者基于肿块病灶的三维图像提取影像组学特征,采用Lasso logistic回归模型进行特征降维及筛选以建立影像组学标签.采用
为探讨粪便钙卫蛋白(FCP)及血清癌胚抗原(CEA)、糖链抗原19-9(CA19-9)和糖链抗原125(CA125)用于结直肠癌筛查的价值,以2017年2月至2020年12月于我院体检的5400人为筛查人群,分别检测受检者的粪便FCP及血清CEA、CA19-9、CA125水平.根据体检结果分组,分析不同疾病组、结直肠癌不同分化程度组及不同临床分期组患者粪便FCP及血清CEA、CA19-9、CA125水平的差异,并比较4项指标单一检测及联合检测对结直肠癌的诊断效能.结果显示,5400名体检者中,肠息肉90例
为探讨腹腔镜直肠癌根治术中保留左结肠动脉(LCA)的安全性与有效性,回顾2016年1月至2018年12月于我科接受腹腔镜直肠癌根治术治疗的103例患者资料,根据术中是否保留LCA分为观察组(53例,术中保留LCA)和对照组(50例,术中不保留LCA),比较2组手术情况、术后恢复及随访情况.结果显示,2组患者术中出血量、肠系膜下动脉根部淋巴结清扫数目、手术时间、术后排气时间、住院时间、术后2年复发及转移率比较差异均无统计学意义,P>0.05;观察组术中游离脾曲、预防性肠造口及术后吻合口漏发生率均低于对照组,
为探讨免疫细胞和炎性因子与结直肠癌根治术后切口感染的相关性,回顾2017年5月至2020年7月于我院行结直肠癌根治术治疗的125例患者资料,根据患者术后是否发生切口感染分为感染组(40例)和未感染组(85例),比较2组术前一天、术后当天免疫细胞指标及术后第3天炎性因子水平.结果显示,1)免疫细胞:与术前一天相比,2组患者术后当天CD3+CD4+、CD3+CD8+、CD16+CD56+、CD19+含量均降低,P<0.05;组间比较,感染组术前一天和术后当天CD3+CD4+、CD3+CD8+、CD16+CD5
振动筛是选煤厂煤泥水处理系统中的关键结构,也是洗选工艺中的关键设备.振动筛故障常处于隐藏状态很难提前预测.针对选煤厂振动筛潜在故障可能导致被迫停机检修,影响正常生产等问题,通过对振动筛故障特点进行分析,利用传感器、监控站以及Labview上位机监控平台,设计了一套选煤厂振动筛故障监测和诊断系统,通过对振动筛故障前期表现出的特征进行提取和分析,实现了准确识别潜在故障,最终达到了提高选煤厂振动筛运行平稳性和可靠性,减少停工检修,有利于提高企业的生产效率和质量.
随着人工智能技术的发展,各个领域都利用人工智能提高了自动化水平和效率。司法领域也不例外,我国积极推进“智慧法院”建设,致力于用科技手段提高司法机关办案水平,进一步确保司法的公平性和效率,同时也为人民群众普法用法提供帮助。因此,研究人工智能在司法领域的应用具有重要的社会价值。本课题的研究内容主要包括三部分:1、基于预训练模型提取特征的混合深度罪名预测模型。受益于预训练模型新颖的模型架构,训练方式和海
神经可以支配人体组织,对运动、感觉和发育等功能起到重要调控作用,神经调节在肿瘤发生、发展过程中的作用越来越被重视,脑内神经祖细胞可以直接随血循环迁徙到肿瘤部位,促进肿瘤生长.本文综述了脑内神经元影响颅外肿瘤的各种途径,脑内神经元可以通过肿瘤内的神经纤维直接促进肿瘤生长或促进瘤内血管新生,并且脑内神经元亦可通过内分泌和免疫系统间接影响颅外肿瘤生长进程.基于神经对颅外肿瘤生长的重要调控作用,近年来,去神经支配、β受体阻滞剂及环境和行为治疗等方法在抑制肿瘤生长的基础研究中取得了良好的效果.通过手术或化学方法去除
针对传统刮板输送机自动张紧系统稳定性差问题,通过对原有系统进行仿真,得出在收缩工况下液压缸无杆侧的压力呈现大幅度波动,极易造成部件的损坏,提出系统优化设计思路,给出了基于遗传算法PID的优化方案,通过对方案进行仿真验证,优化后的系统压力达到稳定的时间明显降低,且压力波动幅度也有所降低,验证了优化方案的可行性,为矿井刮板输送机的稳定运行提供参考.
针对某煤炭企业地面供电系统可靠性较低的现状,以其控制系统为研究对象,提出矿井地面供电系统的改造方案.完成了改进供电系统的结构设计、硬件设计和软件设计任务,采用现场试运行的方法验证改进地面供电系统运行情况,统计结果显示,改进供电系统的应用可降低系统故障率近15%,成功解决了地面供电系统可靠性较低的问题,同时,减少了供电系统约12%的故障排除时间,节省多名系统运维人员,降低了煤炭企业的生产成本,保证了井下掘进设备的安全可靠运行.
针对煤矿空压机集中控制系统存在的控制模式单一、通讯系统薄弱、故障率高的问题,设计基于变频模糊控制的空压机集中控制系统.设计上位机集中监控平台、PLC控制柜、变频-空压机三层控制结构,并增加摄像仪作为辅助监控.设计变频、模糊PID控制算法对空压机进行实时控制,采用TCP/IP、CAN总线通讯实现空压机与上位机、空压机与变频器、低压控制柜之间的通讯.实际应用情况表明,该集中控制系统能够实现空压机控制系统的实时监控,保证空压机安全、连续、稳定工作.