论文部分内容阅读
目的:年龄推断是法医学领域研究的重要课题之一,如推断高度腐败甚至白骨化无名尸的年龄,可为尸源的查找提供侦查范围和线索;若现场遗留生物物证DNA与数据库无比对结果时,推断年龄将具有重要价值。目前,个体年龄推断主要运用骨骼、牙齿等形态学指标,但误差较大,易受主观因素和检材种类影响,不适用于血液等常见法医生物检材。近来一些研究报道利用端粒长度、mi RNA、DNA甲基化等分子标志物进行血液等生物检材的年龄推断,但年龄推断的精度仍有待进一步提高,这些标志物的检验方法对检材质量也具有较高的要求,限制了其在法医实践中的应用。因此,寻找新的稳定的年龄分子标志物用来构建高精度年龄推断模型是当前法医年龄推断所面临的难题。最近研究发现某些环状RNA分子随年龄增长而逐渐累积,且文献报道环状RNA分子结构较稳定,能够抵抗RNA核酸外切酶的降解,更适合法医陈旧降解检材,有望成为新兴生物学标记用于法医常见检材的年龄推断。本研究将探索circ RNA随年龄变化的规律,通过RNA-seq方法筛选与年龄有高度相关性的circ RNA,构建法医血液样本的年龄推断模型,为法医年龄推断方面提供新的理论依据和技术方案。方法:1.二代测序方法筛选年龄相关性circ RNAs:采集年龄在20—62岁13名健康无关个体外周静脉血10ml,采用环状RNA测序技术检测不同年龄样本外周血中的circ RNA表达谱,对所有鉴定出的circ RNA进行统计分析(包括线性相关分析、lasso变量稀疏、支持向量机特征筛选)和特征降维以筛选随年龄变化趋势明显的circ RNA作为候选生物标志物用于后续分析。2.RT-q PCR方法验证随年龄显著变化的候选circ RNAs:采集年龄在19-72岁的50名无关个体外周静脉血2ml,针对测序结果筛选出的circ RNAs,分别在环化位点两侧设计反向(divergent)引物,或在结点处设计跨结点引物。通过RT-q PCR方法,检测候选circ RNAs在50人样本人群中的表达水平,以ΔCT值(CT目的基因–CT内参基因)表示circ RNA的表达量。3.血液年龄推断模型的构建:通过RT-q PCR检测获得的候选circ RNA分子50样本人群表达量数据,其中80%样本作为训练集(training set),20%作为验证集(testing set)。通过多元逐步回归法、Lasso回归和随机森林回归(Random Forest Regression,RFR)三种方法构建模型。采用十折交叉验证法(10-fold cross validation)调整参数以确定最优模型。模型评价指标有拟合度R~2,均方根误差(Root-mean Square Error,RMSE)以及平均绝对误差(Mean Absolute Error,MAE)。结果:1.RNA-seq方法在13名无关个体中共检测到45697种circ RNAs,其中新发现的有32380种。Spearman双变量相关性分析结果显示,13名无关个体中,随年龄增长呈现趋势变化,相关性绝对值大于等于0.6(?rho?≥0.6)的circ RNAs共有197种,这197种circ RNAs中,经过FDR校正后取q-value值小于0.01的14种circ RNAs以及经lasso回归变量稀疏后的6种circ RNAs作为候选circ RNAs。另外,根据支持向量机(Support Vector Machine,SVM)进行特征筛选后得到的9种circ RNAs也被作为候选分子用于后续实验分析。2.针对采用三种方法筛选出的共28种年龄相关性circ RNAs分子分别设计包含结点或跨结点的反向引物,RT-q PCR引物特异性实验验证的所有circ RNAs熔解曲线均为单一的高尖峰,扩增产物的琼脂糖凝胶电泳均显示单一条带。Sanger测序结果显示,所有候选circ RNAs分子结点处序列均与二代测序junction reads序列一致。3.RT-q PCR实验验证了28种circ RNAs在50例年龄为19~72岁健康无关个体中表达量变化趋势。对每一种circ RNA分别与年龄作线性相关分析发现,只有7种circ RNAs分子表达量随年龄增长呈现表达量变化趋势,其中除了hsa_circ_0000524表达与年龄增长呈负相关,其他均与年龄增长呈正相关。相关性最高的是hsa_circ_0000666(rho=-0.704,P<0.000)。4.三种方法被用于个体年龄推断模型的构建,分别是多元逐步回归分析、Lasso回归和随机森林回归,三种模型评价指标中模型拟合度R~2值分别为0.69、0.84、0.87,RMSE分别为10.1岁、8.0岁和5.7岁,MAE分别为8.7岁、6.9岁和4.4岁。结论:本研究首次利用高通量测序方法分析了不同年龄个体外周血circ RNAs差异表达谱,采用经典统计学方法结合机器学习方法进行特征降维,筛选出了7种随年龄增长呈现显著变化趋势的circ RNAs。首次以circ RNAs作为血液生物分子标记物,构建其表达量与年龄之间的数学模型。随机森林法比多元逐步回归法和Lasso回归法预测准确性更高,RFR的平均绝对误差为4.38岁,表明circ RNA可以作为外周血年龄推断的候选标记物,为法医学年龄推断筛选新的分子标志物提供了理论依据。