论文部分内容阅读
随着移动通信技术的发展和大数据时代的到来,互联网中涌现出大量蕴含着巨大价值的数据,如微博、产品评论等。海量的数据对数据的处理技术及数据挖掘方法带来了空前的挑战。顺序回归,存在于机器学习中分类和回归问题之间,旨在将标签具有顺序关系的样本尽可能分到与其标签类别接近的类别中。由于越来越多的现实应用更加重视对标签之间顺序关系的处理,如:情感分析、产品打分等,故这些任务可更好地被看成顺序回归问题来处理。近年来,顺序回归已积累了许多成功的模型。但是,面对互联网中海量的数据,目前仍缺乏训练高效的顺序回归模型。为解决该问题,本文主要研究处理大规模数据的顺序回归模型及其在实际中的应用问题。 本文创新点主要如下: 第一,提出一种基于有序分解的支持向量机模型,简称SVMOP。该顺序回归模型既继承了线性支持向量机高效处理大规模数据的优点,又能将顺序信息嵌入到模型中。本文使用修改后的对偶坐标下降算法对该模型进行求解。为更好地进行模型预测,本文提出了一个全新的预测函数。另外,本文率先将该模型应用到移动医疗领域中的医生质量评估问题。在该问题中,本文将医生质量评估建模成顺序回归问题,以减小实际应用中模型自动打分与真实的医生质量评分之间的差距。另外,在医生质量自动评估模型构建过程中,本文使用梯度提升决策树(Gradient Boosted Decision Tree)对领域特征进行增强。为验证模型的有效性,本文从真实的移动医疗平台采集数据并通过数值实验对比了与其他顺序回归模型在性能上的差异。实验证明了将医生质量评估问题建模成顺序回归的必要性以及SVMOP模型处理该类数据的有效性。 第二,分别提出基于代价敏感损失和基于L2损失的有序分解支持向量机模型。顺序回归处理不同的分错样本代价往往不同。换句话说,顺序回归问题是代价敏感的。受此启发,本文提出了基于代价敏感损失的SVMOP模型。另外,考虑到顺序回归问题非常看重对错误样本的惩罚,而L2损失可对分错的样本惩罚更大,所以本文提出基于L2损失的SVMOP模型。此外,由于互联网中存在大量的社交网络、产品评论等数据,如何尽可能准确地挖掘人们所要表达的偏好信息即进行有效的情感分析是一个重要研究课题。本文将该类任务看成顺序回归问题并使用上述两种模型对其求解。大量实验证明了以上两个模型在性能上优于原始的SVMOP模型以及其他顺序回归模型,从而验证了上述两种模型的有效性。 第三,提出一种基于有序编码的核极限学习顺序回归模型。一方面,顺序回归中样本标签的顺序信息可以通过编码体现,所以本文首先研究和比较了多种用于顺序回归问题的编码。另一方面,极限学习机,作为一种特殊的单层前馈神经网络,拥有训练速度快,防止陷入局部最优解的特点。但是对基于极限学习机的顺序回归模型的研究较少。核极限学习机作为极限学习机在核框架下的一种拓展,具有泛化性能更高的优点。因此,本文将核极限学习机与有序编码相结合,提出基于有序编码的核极限学习顺序回归模型。该模型有效解决了如何在顺序回归中取得良好的特征映射以及如何避免传统极限学习机中隐层节点个数依赖于人工设置的问题。为验证提出模型的有效性,本文在多个顺序回归数据集上进行了测试。测试结果表明,相比于传统ELM模型,本文提出的模型在数据集上表现最优,而且获得了最短的训练时间。 第四,提出一种基于低秩分解技术的核极限学习顺序回归加速算法。为了使基于编码的核极限学习顺序回归模型更加适应大规模数据,拥有更高效的训练过程,本文利用低秩分解技术和SMW(Sherman-Morrison-Woodbury)公式设计出高效快速的求解算法。该算法将一个高阶矩阵求逆的过程转化为低阶求逆,大大降低了计算复杂度。具体地,本文分别通过不完全乔里斯基分解和考虑顺序信息的不完全乔里斯基分解两种低秩分解技术实现该加速算法。理论上,本文分析了这两种加速算法的计算复杂度均与样本数量线性相关。实际中,本文在多个公开的顺序回归数据集上验证了该加速算法的有效性和高效性。