论文部分内容阅读
大天区面积多目标光纤光谱天文望远镜(LAMOST)是国家“九、五”重大科学工程项目之一。预计2005年底建成之后,每个观测夜将获得1~2万条光谱数据,预计所获得的光谱数据总量达107。LAMOST项目急需研制天体光谱数据的自动处理和分析系统。本文正是在这种背景下展开的,重点探索天体光谱数据的自动分类与自动红移参数测量方法,以满足LAMOST项目的需要。
本文的主要工作包括以下四个部分:
(1)基于局部PCA(LPCA)和核PCA(KPCA)的光谱分类技术
针对恒星、星系和类星体光谱分类任务,本文提出了基于LPCA和KPCA的两种分类算法。对于LPCA,实验表明它所提取的特征比使用原始PCA所提取的特征包含更好的关于恒星和类星体的分类信息,提高了恒星、类星体的分类正确率。该方法计算量小,适用于大规模的光谱数据处理。
对于KPCA,实验表明在高斯核宽为2时,KPCA提取的特征具有更好的分类鉴别性能,且KPCA的平均分类正确率略高于PCA方法。实验还表明:当主分量个数取20时,两者的分类正确率都到达最高。这些结论对将来LAMOST的实测数据处理和分析有重要的参考价值。
(2)基于核技巧的光谱分类技术
(a)给出了基于核的广义判别分析(GDA)的光谱分类算法。实验对比了LDA、GDA、PCA、KPCA算法对于恒星、星系和类星体的光谱分类性能。结果表明基于GDA的算法对于这三种类型光谱的分类正确率最高,LDA次之。尽管KPCA也是基于核的方法,但是当主成份个数少时效果不好,甚至低于LDA。基于PCA的分类效果最差。
(b)提出了一种基于核技巧的覆盖算法--核覆盖算法。该算法将核技巧与覆盖算法相结合,并在特征空间中抽取支持向量。实验表明,核覆盖算法与覆盖算法在分类正确率上大致相当,但核覆盖算法得到的支持向量个数大大少于覆盖算法。
(3)提出了一种自动测量正常星系(NG)红移的快速方法
首先,由NG模板根据红移范围位于区间I:0.0~0.3和区间II:0.3~0.5模拟得到两类星系样本,对这些样本进行PCA变换获得样本特征向量。然后,利用概率神经网络设计两类样本特征向量的Bayes分类器。最后,对于实际NG光谱数据,利用已训练的Bayes分类器确定其红移的大致范围,然后在这个范围内进行模板匹配得到红移的测量值。与传统的模板匹配方法相比,此方法不但节省了50%的模板匹配运算量,而且还大大提高了红移值测量的精度。该方法对于大型光谱巡天所产生的海量数据的自动处理具有重要意义。
(4)提出了一种基于流形学习测量星系红移值的方法
首先,利用局部线性降维算法LLE将星系大致分为类早型和类晚型。对于类早型,选择了尺度4的小波系数作为类早型星系吸收线、跳变点和吸收带特征的表示。由于类晚型星系光谱带有较强发射线,谱线的信噪比一般较高,因而直接用原始光谱作为特征输入。然后,再用LLE算法分别处理类早型(特征)和类晚型星系。研究发现它们的特征数据分别可以表示为三维空间中的一维流形,并通过判定一维流形的单调性来选择LLE的参数--近邻点K的值。最后,根据训练样本的红移在这个一维流形上的有序分布通过最近邻方法获得实测光谱的红移值。