论文部分内容阅读
极限学习机(Extreme Learning Machine,ELM)具有分类速度快,分类精度高的优点,已经越来越多地用于基因表达数据分类中,但是个体极限学习机具有分类的不稳定性。随着分类技术的发展,集成学习可以克服单个极限学习机用于数据分类时性能欠稳定的缺点,已经成为分析基因表达数据获取生物学信息的有力工具。然而当所给样本的误分类代价不相等时,对基因表达数据进行分类就不能仅仅以提高分类精度为目标,应该在高分类精度的基础上最小化误分类代价。本文将针对基因表达数据的分类进行研究,主要内容如下:(1)提出了极限学习机的相异性集成算法(D-ELM):分别基于两种测度提出了基于输出不一致测度的极限学习机相异性集成算法(D-D-ELM)和基于错误一致测度的极限学习机相异性集成算法(DF-D-ELM)。首先对相异性测度(输出不一致测度、错误一致测度)进行分析,建立相应的剔除规则;然后对极限学习机进行相异度的判断,根据相应的剔除规则剔除冗余的极限学习机;采用多数投票技术集成筛选后的极限学习机;最后用该集成系统对基因表达数据进行分类。实验表明:D-ELM算法能够有效提高极限学习机的分类精度,并且能够进一步得出DF-D-ELM算法要优于D-D-ELM算法。(2)提出了极限学习机的代价敏感学习算法(CS-ELM):首先在分类时引入概率估计的思想,将分类概率与误分类代价相结合;然后在此基础上进一步嵌入拒识代价实现极限学习机的代价敏感分类。实验表明:CS-ELM算法,虽然牺牲了误分类代价较低的大类别样本的分类精度,但降低了整体样本的误分类代价,实现了最小化误分类代价的目的。(3)提出了嵌入代价敏感的极限学习机相异性集成算法(CS-D-ELM):该算法首先利用D-ELM算法的思想对极限学习机进行筛选,剔除冗余极限学习机;然后结合CS-ELM算法的思想最小化误分类代价。实验表明:CS-D-ELM算法既能有效提高样本的分类精度,又能达到降低误分类代价的目的。