一种特征转移和域自适应的异质缺陷预测方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:gzhp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测是软件工程领域中的一个研究热点.跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)采用源项目的缺陷数据来预测目标项目的缺陷倾向性.然而,源项目和目标项目的特征可能会有所不同.因此,研究人员提出了异质缺陷预测(Heterogeneous Defect Prediction,HDP).为了提高HDP模型的性能,本文提出了一种基于特征迁移和域自适应的异质缺陷预测(Feature Transfer and Domain Adaptation,FTDA)方法.首先,FTDA使用基于相关性的特征选择算法从源项目的特征集中选择最优的特征子集.随后,使用欧氏距离进行匹配特征,并为每个目标项目选择最合适的源项目.再次,使用TCA算法解决不同项目之间的分布差异问题.最后,使用SMOTETomek算法处理类不平衡问题.为了验证FTDA方法的有效性,本文对AEEEM,PROMISE,NASA和Relink数据集中的24个项目进行了实证研究.实证研究表明,FTDA显著提高了异质缺陷预测的性能.
其他文献
实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务.融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型对医疗领域实体进行抽取,并将医疗实体分为检验指标、疾病、症状这三大类.实验结果表明,使用KBLCC模型进行医疗领域实体分
文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类.实验证明,BERT作为嵌入层输入时,有效优化了词向量.同时,文本提出的BBGA模型具有高效的处理能力,在处理THUCNews数据集时,达到了94.34%的精确度,比TextCNN高出5.2
目前,潜在因子模型被广泛用于推荐,现有的方法大多利用用户与项目之间的交互信息来学习潜在特征,然而,用户和项目的潜在特征可能是来自多个方面.同时,考虑到神经结构可以替代矩阵分解中内积的形式,模拟用户和项目之间的交互,本文提出了一种融合多方面潜在特征和神经网络的推荐模型.首先,将推荐系统建模为包含丰富语义的异构信息网络,然后利用元路径和异构skip-gram模型提取并学习不同方面的潜在特征;其次,结合注意力机制将这些特征向量加权融合;最后,将得到的用户和项目的全局向量表示送入到神经网络中以实现评分预测.本文模
文本摘要在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Trans
空间众包泛指将一个或多个与地点相关的子任务,分配给大量携带有智能终端的移动用户,通过他们共同完成而形成的一种新型协作计算模式.如何分配执行的移动用户并覆盖所有空间众包任务,对于企业的发展有决定性作用.本文综合考虑了空间众包系统在现实中的不同应用场景(如移动数据收集、快递、共享汽车等),引入了一种三层空间众包架构,包括系统平台、服务网点、移动用户3部分.本文针对该架构的服务网点选址问题,建立以收益最大化为目标的问题模型,证明了这是NP难解问题.并且结合Voronoi图,设计了遗传算法,借助于Matlab软件
信誉可以帮助用户在对等网络系统中做出更好的服务选择决策.然而女巫攻击者可以获取多个身份,并伪装成多个在系统中的实体,通过操控多个女巫节点的评价意向,让其他参与者的信誉随攻击者的意愿而改变.现有的防范方法需要引入特定环境进行攻击检测或者仅进行单次注册验证,难以从源头上抑制女巫攻击.通过引入多轮工作量证明验证和动态难度调整的验证机制,本文提出了一种针对对等网络信誉系统的女巫攻击者防范模型.理智的攻击者通常不会在没有收益的情况下进行攻击,因此可以通过使用多轮难题验证将攻击者的预期收益降至最低.此外考虑到攻击者在
针对网络中离线状态用户浏览信息存在延迟,辟谣信息可信度和辟谣者个体影响力存在差异的特点,本文基于传染病动力学的经典模型,建立基于时延机制和辟谣机制的新型谣言传播动力学模型.网络用户扩展为五大类,并引入辟谣函数表示其他类节点转化为辟谣节点的概率.利用微分动力学和再生矩阵谱半径方法,计算模型平衡点和基本再生数,通过理论推导和数值实验证明平衡点的存在性以及稳定性.对模型进行数值仿真实验,探究谣言的潜伏期、辟谣信息可信度和辟谣者个体影响力对网络谣言传播的影响,并与传统的谣言传播动力学模型对比.研究结果表明该模型能
针对K匿名、空间泛化等隐私保护方法中匿名区域受攻击造成用户隐私泄露的问题,提出一种基于K匿名机制的K-Vretr方法.首先,引入Voronoi图模型,利用离散的Voronoi图特性,分析同类信息点,生成K匿名集发送给LBS服务器;其次,定义关系矩阵,计算出用户位置与目标信息点之间的邻近关系;再次,应用二次剩余假设模型,确保用户目标信息点的查询隐私安全;最后,通过实验验证K-Vretr方法在满足l-多样性的同时,既增大了匿名空间,又减少了匿名时间,进而保证了安全性与匿名效率,有效防止了用户隐私的泄露.
针对传统卫星网络中,由于低轨卫星节点计算能力不足,导致大量计算任务需要传输到高轨卫星计算或转发,进而产生巨大传输时延的问题,本文利用移动边缘计算技术,结合天地一体化智能网络架构,提出了一种基于人工蜂群的智能卫星节点优化部署算法.该算法通过迭代,结合网络分簇算法,选出边缘服务有效覆盖率最高的智能卫星节点部署策略.从而使得更多卫星和地面节点能够获取到边缘服务,进而有效降低了系统的平均传输时延.实验部分建立了基于Matlab和STK的仿真实验平台,仿真结果表明本文提出的算法有效降低了传统卫星网络的平均传输时延,
本文研究一类有限信息约束下的离散系统鲁棒滤波问题.滤波对象的测量输出经由多个量化器量化后发送给滤波器.在所考虑的滤波问题中,通过引入均匀分布的随机变量描述量化噪声,并采用随机系统的方法实现滤波误差系统的建模,从而将滤波误差系统建模成一个具有多个随机变量的不确定性系统.基于随机系统的分析方法,通过黎卡提方程给出了H∞滤波器的设计方法,使得滤波误差系统均方稳定且符合给定的性能指标.最后,通过仿真算例验证了本文所提设计方法的有效性.