【摘 要】
:
在训练集和测试集满足独立同分布的假设条件下,经典的机器学习算法在我们的日常生活中得到了大量成功的应用。令人遗憾的是,当训练集和测试集的分布存在较大差异时,经典的机器学习算法性能会显著下降。领域自适应算法利用来自不同分布的源域数据(训练数据)和目标域数据(测试数据),缩小源域和目标域数据的分布差异,从而达到利用经典机器学习算法进行建模的目的。目前,大多数领域自适应算法通过对齐源域和目标域的边际分布(
论文部分内容阅读
在训练集和测试集满足独立同分布的假设条件下,经典的机器学习算法在我们的日常生活中得到了大量成功的应用。令人遗憾的是,当训练集和测试集的分布存在较大差异时,经典的机器学习算法性能会显著下降。领域自适应算法利用来自不同分布的源域数据(训练数据)和目标域数据(测试数据),缩小源域和目标域数据的分布差异,从而达到利用经典机器学习算法进行建模的目的。目前,大多数领域自适应算法通过对齐源域和目标域的边际分布(x)和类条件概率分布(x|y)来减小源域和目标域的分布差异。从统计学的角度来看,对齐源域和目标域的边际分布和类条件概率分布并不能确保对齐源域和目标域的联合分布。考虑到对齐源域和目标域的联合分布是领域自适应的本质性问题,本文开展基于联合分布对齐的领域自适应算法研究。为了解决联合分布不匹配问题,本文首先创造性地把核函数表示成样本特征核函数和标签核函数之积,并从理论上证明了其合理性;然后,基于所提出的核函数和最大均值差异(Maximum Mean Discrepancy,MMD)度量公式,本文提出了扩展的最大均值差异(Extended Maximum Mean Discrepancy,EMMD)公式度量源域和目标域的联合分布差异;最后,基于所提出的度量公式,本文提出了联合分布匹配嵌入模型(Joint Distribution Matching Embedding,JDME)。该模型通过找到子空间中的投影矩阵,使得源域和目标域的联合分布在投影子空间中尽可能接近。为了求解带正交约束的优化问题,本文将JDME模型转化为格拉斯曼流形上的无约束优化问题,并使用一阶黎曼梯度下降算法进行求解。由于线性映射可能不足以将复杂的数据进行较好的投影,本文将JDME模型推广到非线性的情况,提出核联合分布匹配嵌入算法(Kernel Joint Distribution Matching Embedding,KJDME)。在大量无监督和半监督领域自适应问题上的实验结果表明:与大量经典的浅层领域自适应算法相比,在0.05的置信水平下,所提出的JDME算法和KJDME算法均具有统计显著性。另外,所提算法的性能与基于联合分布对齐的算法、基于深度学习的算法是可比的。
其他文献
路侧感知是车路协同系统的核心组成部分,感知数据的质量将直接影响各场景应用的效果和可行性。现有路侧感知方案中多采用传统的交通传感器,如在地面上安装侵入式检测器或包含支撑结构的悬挂式检测器。这些常规检测器安装和维护的费用较为昂贵,并会严重干扰城市交通的正常运营。以上不足促使了用于智慧交通全息数据感知的低成本、易安装、高精度的位置感知技术的研发。其中,无线传感网络技术(Wireless Sensor N
第一章抗性淀粉对非酒精性脂肪肝病小鼠的作用及菌群改变目的:探讨抗性淀粉(Resistant starch,RS)对非酒精性脂肪肝病(Non-alcoholic fatty liver disease,NAFLD)小鼠的作用和肠道菌群改变情况。方法:通过高脂饮食16周建立NAFLD小鼠模型,分别给予CD(Control diet)组和HFD(High fat diet)组小鼠喂养RS 4周,收集小鼠
改革开放以来,东莞以乡镇工业增量建设为发展主轴的工业化、城镇化路径,在国家粤港澳大湾区建设快速推进和全球产业结构变革的新时代背景下面临转型压力。这种爆发式的工业化发展所带来的城市问题也逐步成为城市发展的桎梏。在未来城市发展中,这类既有的工业园如何稳固工业基础,提升城市空间品质,完善城市功能,提高土地利用效率已成为城市更新建设的重要议题。长安镇作为东莞市最早参与“三来一补”的乡镇,凭借其规模庞大、发
随着社会的进步和生活压力的增大,存在心理健康问题的人数不断攀升,人们对心理健康服务的需求日益增加。我国对于国民的心理健康也更加重视,陆续推出了一系列政策文件以推进我国社会心理健康服务体系的建设。社区心理健康服务作为解决国民心理健康问题最为基础的途径,为人们所关注并成为我国社区公共服务的一种需求,但其却仍存在很多服务缺口。在影响心理健康的各种因素中,亲子沟通障碍是不容忽视的一点,利用社区服务资源解决
无人系统越来越多地被应用于电力基础设施的巡检解决方案中,轻量级、具有较强的灵活性、自主性,可以在减少人力成本的基础上较好地实现电力基础设施的巡检。随着社会经济和科技地发展,国家电网高速发展,输电线路逐步规范和整合。当前输电线路分布主要分为架空输电线路以及地下电缆。巡检已成为排查电力设备安全隐患的重要手段。对于架空输电线路,其中输电杆塔作为架空输电线路的关键构成部分,需要承受外力和导线应力。它的稳定
肺动脉栓塞(PE)是指各种栓子阻塞肺动脉或其分支为发病原因的一组疾病或临床综合征的总称,其危害性仅次于心肌梗死和卒中。肺动脉栓塞的临床症状和体征通常不具备特异性,对临床医生的及时和正确诊断提出了较大挑战和较高要求。CT肺动脉造影(CTPA)对PE诊断的敏感性和特异性均较高,且无创、便捷,目前已成为确诊PE的首选检查方法。然而,PE的检查需要放射科医生仔细追踪大量CT图像中的每条肺动脉是否有可疑PE
随着自动驾驶和智能机器人的不断发展,自主定位技术得到广泛的研究与应用。视觉惯导里程计(Visual Inertial Odometry,VIO)算法是自主定位技术的常用技术之一,基于深度学习的VIO算法在鲁棒性方面表现出优秀的竞争力,但是现有的基于监督学习的VIO算法需要花费大量的时间来平衡位移和旋转的训练,且只简单考虑位移和旋转之间的平衡,过于理想化;另一方面,目前的深度学习VIO算法的网络架构
辐射源个体识别与精细化分析是认知电子战的关键任务。面对日益复杂的电磁背景及非合作强对抗的战场环境,传统辐射源个体识别方法可靠性不足,无法满足现实需求;深度学习等人工智能方法虽然取得了一定的成果,但其受大数据驱动,与实际工程中的小样本现实相矛盾。针对小样本情景下辐射源个体识别困难的问题,本文分别使用实采雷达辐射源及实采电台辐射源个体原始数据构建数据集,并围绕时频特征提取、多时频特征融合、神经网络模型
脑机接口(brain computer interface,BCI)构建了大脑与外部设备直接进行交互的信息通路,能够帮助运动功能障碍患者恢复一定的信息交流和运动能力。本课题主要研究基于稳态视觉诱发电位(steady-state visual evoked potential,SSVEP)的脑机接口,其具有信息传输率高,仅需少量训练等优点,有着广阔的应用前景。虽然基于典型相关分析(canonical