顺序回归方法及其应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:catchersun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的发展和大数据时代的到来,互联网中涌现出大量蕴含着巨大价值的数据,如微博、产品评论等。海量的数据对数据的处理技术及数据挖掘方法带来了空前的挑战。顺序回归,存在于机器学习中分类和回归问题之间,旨在将标签具有顺序关系的样本尽可能分到与其标签类别接近的类别中。由于越来越多的现实应用更加重视对标签之间顺序关系的处理,如:情感分析、产品打分等,故这些任务可更好地被看成顺序回归问题来处理。近年来,顺序回归已积累了许多成功的模型。但是,面对互联网中海量的数据,目前仍缺乏训练高效的顺序回归模型。为解决该问题,本文主要研究处理大规模数据的顺序回归模型及其在实际中的应用问题。  本文创新点主要如下:  第一,提出一种基于有序分解的支持向量机模型,简称SVMOP。该顺序回归模型既继承了线性支持向量机高效处理大规模数据的优点,又能将顺序信息嵌入到模型中。本文使用修改后的对偶坐标下降算法对该模型进行求解。为更好地进行模型预测,本文提出了一个全新的预测函数。另外,本文率先将该模型应用到移动医疗领域中的医生质量评估问题。在该问题中,本文将医生质量评估建模成顺序回归问题,以减小实际应用中模型自动打分与真实的医生质量评分之间的差距。另外,在医生质量自动评估模型构建过程中,本文使用梯度提升决策树(Gradient Boosted Decision Tree)对领域特征进行增强。为验证模型的有效性,本文从真实的移动医疗平台采集数据并通过数值实验对比了与其他顺序回归模型在性能上的差异。实验证明了将医生质量评估问题建模成顺序回归的必要性以及SVMOP模型处理该类数据的有效性。  第二,分别提出基于代价敏感损失和基于L2损失的有序分解支持向量机模型。顺序回归处理不同的分错样本代价往往不同。换句话说,顺序回归问题是代价敏感的。受此启发,本文提出了基于代价敏感损失的SVMOP模型。另外,考虑到顺序回归问题非常看重对错误样本的惩罚,而L2损失可对分错的样本惩罚更大,所以本文提出基于L2损失的SVMOP模型。此外,由于互联网中存在大量的社交网络、产品评论等数据,如何尽可能准确地挖掘人们所要表达的偏好信息即进行有效的情感分析是一个重要研究课题。本文将该类任务看成顺序回归问题并使用上述两种模型对其求解。大量实验证明了以上两个模型在性能上优于原始的SVMOP模型以及其他顺序回归模型,从而验证了上述两种模型的有效性。  第三,提出一种基于有序编码的核极限学习顺序回归模型。一方面,顺序回归中样本标签的顺序信息可以通过编码体现,所以本文首先研究和比较了多种用于顺序回归问题的编码。另一方面,极限学习机,作为一种特殊的单层前馈神经网络,拥有训练速度快,防止陷入局部最优解的特点。但是对基于极限学习机的顺序回归模型的研究较少。核极限学习机作为极限学习机在核框架下的一种拓展,具有泛化性能更高的优点。因此,本文将核极限学习机与有序编码相结合,提出基于有序编码的核极限学习顺序回归模型。该模型有效解决了如何在顺序回归中取得良好的特征映射以及如何避免传统极限学习机中隐层节点个数依赖于人工设置的问题。为验证提出模型的有效性,本文在多个顺序回归数据集上进行了测试。测试结果表明,相比于传统ELM模型,本文提出的模型在数据集上表现最优,而且获得了最短的训练时间。  第四,提出一种基于低秩分解技术的核极限学习顺序回归加速算法。为了使基于编码的核极限学习顺序回归模型更加适应大规模数据,拥有更高效的训练过程,本文利用低秩分解技术和SMW(Sherman-Morrison-Woodbury)公式设计出高效快速的求解算法。该算法将一个高阶矩阵求逆的过程转化为低阶求逆,大大降低了计算复杂度。具体地,本文分别通过不完全乔里斯基分解和考虑顺序信息的不完全乔里斯基分解两种低秩分解技术实现该加速算法。理论上,本文分析了这两种加速算法的计算复杂度均与样本数量线性相关。实际中,本文在多个公开的顺序回归数据集上验证了该加速算法的有效性和高效性。
其他文献
特征提取对高维数数据的分类具有重要的研究意义,应用非常广泛。特征提取的目的是提取一组特征,使得这些特征的维数比原始数据的维数低,且保持数据的类别特性。用提取的特征
随着新一代信息技术的推广,信息安全成为信息技术发展的重点之一,信息处理技术也受到越来越多的关注,漏洞库上报管理平台作为国家互联网应急中心信息安全漏洞共享平台的子项
随着深空探测活动的广泛开展和深空探测技术的进步,常规的推进技术已经很难满足日益发展的深空科学任务要求。开发更为有效的推进技术逐渐成为人们研究的焦点,其中太阳帆就是
计算机的硬件正以惊人的速度在发展。目前在多媒体下载、流媒体数据业务支持、航天通信等领域的嵌入式开发应用中,使用的嵌入式硬件平台已经完全突破了早期的单片机的性能限
风送式喷雾是一种先进的喷雾技术,利用风的作用使雾滴具有较好的穿透性。但国内对风送式喷雾机的研究仍存在以下问题:一是对于风送式喷雾机的作业机理缺乏较深入的研究,风筒的设
近年来,社交媒体、监控摄像头、生物识别传感器和社交媒体产生的数据迅速增长。大量的可视化数据对机器学习方法提出了更高的要求。同时,数据来源多样、标签信息弱等问题使得传
伺服装置是机电一体化的核心执行部件,广泛应用在机器人、数控机床等对电机性能要求较高、运行可靠性要求较强的领域。转动惯量是保证伺服系统高性能控制的关键参数。能够辨识出伺服系统负载下的惯量值,对实现控制器参数自整定、提高控制性能、保证动态稳定性具有较高工程应用意义。本文首先介绍了永磁同步电机的数学模型以及矢量控制策略,分析了转动惯量对控制器参数自整的作用,同时对伺服系统的转动惯量模型进行分析。在伺服装
在我国航天过去十多年的发展中,FPGA因其功能配置时的多样性与重复性,海量数据处理时的灵活性与高效性,被广泛的应用到航天器电子系统中,承担空间环境下的数字信号处理、图像
尽管国际可信计算组织(Trusted Computing Group,TCG)已经对可信平台模块(Trusted Computing Module,TPM)形成了一套完整的规范,并且TPM的技术也是开放的,但由于掌握核心技术
地理信息系统正在获得越来越广泛而深入的应用。Web也已经成为地理信息访问、服务共享的主流平台。以空间查询与空间分析为主要内容的空间运算是GIS(GeographicInformation S