基于语义相似性的跨模态图文数据内容筛选存储机制研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体数据的爆发式增长和云存储技术的迅猛发展,海量云端数据呈现出多模态混合并存的特性,如何以内容语义为标准对其进行智能化管理和跨模态分析成为传统云存储系统面临的新挑战。一方面,数据体量的增加和模态之间的差异导致有效数据的检索难度陡然提升。另一方面,现有存储系统中,数据无法建立以内容语义为标准的标签与关联。因此,根据用户需求和内容相关性智能化检索云端多模态数据是当下亟待解决的热点问题。
  目前,本文针对图像和文本两种模态提出一种跨模态图文数据内容筛选存储机制,用于提供大规模在线相似性内容筛选服务。首先,在离线阶段根据自监督对抗哈希学习算法SSAH获取跨模态融合的哈希码。然后,根据相似数据哈希码相近的特点,计算哈希码之间的汉明距离。最后,利用Neo4j图数据库构建语义哈希码图谱,并在语义图谱中建立哈希码与存储路径之间的映射。在线筛选阶段,将用户需求(图像或文本)转化为哈希码。在筛选半径内通过语义哈希码图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据。通过这种存储层面的筛选设计,能够有效缓解大规模数据分析时,需要先把所有数据读出的高延迟问题。
  本文在三个公开的跨模态图像文本数据集上进行测试,测试结果表明,CITCSS系统能够在可接受的范围内,牺牲少量召回率,实现云存储系统中基于相似内容的在线筛选功能。图文检索的准确率优于其他基准算法,同时以较小的构图时间开销和存储开销提升系统筛选的性能,为后续云存储系统的在线语义查询和大数据分析提供支持。
其他文献
组合优化主要研究最优匹配、划分与排序等问题的求解方法,从有限个离散状态中搜索最佳状态。交通、物流、医疗、电信、能源、零售、军事等众多领域中均存在大量组合优化问题。尽管各个行业的业务背景千差万别,经过数学建模,绝大多数组合优化问题均可抽象为混合整数规划问题,本质上属于同一类问题。为高效求解该类问题,众多启发式优化算法被相继提出,面向政府与企业的需求提供解决方案。  一方面,路径规划与人员排班作为极具
肺癌严重威胁着人类的生命安全,是目前世界上发病率和死亡率最高的一种癌症。肺癌的早期诊断和早期治疗是提高肺癌患者五年存活率的关键。肺结节是肺癌早期的主要表现形式,基于CT影像学的肺结节检测、分割以及良恶性分类是肺癌早期诊断的关键步骤和有效手段。研究基于卷积神经网络的肺结节诊断算法并开发相应的系统,可为肺癌的早期诊断提供理论依据和手段。  肺结节的检测和诊断通常包含三个步骤,首先进行肺结节的检测、然后
学位
在社交网络极大普及的今天,如何获取和维护社交网络中一些关键和重要的属性成为了一项极有意义的工作。通常来说,大多数工作都将社交网络抽象化为动态图模型进行结构分析,在图论与网络分析中,中心性是判定网络中节点重要性的指标,是节点重要性的量化。这些中心性度量指标最初应用在社会网络中,随后被推广到其它类型网络的分析中。在对于社会网络的分析过程中,其中一项最基本的任务就是需要区分一个社区中那些对象比其他人更具
学位
集成学习是一类重要的机器学习策略。集成学习通过构造含有多个学习器的集合,以期望获得比其中任意一个个体学习器更优的算法准确度。然而,机器学习模型的训练与使用需要消耗相应的资源,包括但不限于为完成计算任务所需的存储空间、执行时间,和耗费的能量,以及其他所需的物质与人力资源。额外的存储需求和计算成本很大程度上限制了集成学习的潜在应用。有限的计算资源成为许多集成学习方法无法回避的问题,特别是当集成规模较为
随着云计算技术的发展,云存储凭借其扩展性好、部署快、成本低等诸多优势而得到广泛应用,然而近年来屡次出现的数据丢失、泄露、恶意攻击等事件使用户数据面临巨大的安全风险。数据加密技术和访问控制技术是保护数据安全的两个重要手段,现有的密文策略属性基加密方案(CP-ABE)将访问控制技术与数据加密技术相融合,被认为是云环境中最为理想的数据保护方法,但多数CP-ABE存在效率低、对恶意用户攻击的抵御方式过于简
学位
大脑神经网络对人类的思维、情感与行为都起着决定作用,在脑疾病以及类脑智能研究方面具有重要价值。而神经元是构成脑网络的基本单元,重建神经元的拓扑结构并分析其形态特征是脑网络研究中的重要方向。  近十几年来,随着神经标记和光学成像技术的逐渐成熟,科学家已经能够获得单神经元水平的全脑三维图像,为神经元形态重建奠定了数据基础。接下来的问题是如何从这些图像中识别、分割神经元的形态结构,并重建数字化三维模型。
多模型数据库是近年来数据库领域里一个新的研究方向。OrientDB作为一种新兴的多模型数据库,默认的参数配置并不能使其达到最佳性能,需要针对实际应用负载对其参数配置进行调优,现有的单模型数据库上的参数配置调优经验无法直接迁移到OrientDB上,为了降低参数配置调优难度,提高OrientDB性能,充分发挥其潜能,亟需研究OrientDB参数配置自动调优技术。  论文研究OrientDB参数配置自动
为了减少数据处理过程中数据移动带来的开销,近数据处理(Near Data Processing, NDP)提出在存储数据的地方就近处理数据。分布式对象存储系统中的存储节点不仅能用于存储数据,还可以用于近数据处理。然而现有的面向存储系统的NDP方案并未能充分利用大量存储节点的资源来满足近数据处理的需求。  首先设计并实现了一个基于存储节点的本地近数据处理方案,接着复现了已有的异地近数据处理方案,通过
新兴的非易失性存储器件(NVM ,Non-volatile Memory)具有持久性、字节寻址、高集成度、低能耗、价格低廉等优点,相比于DRAM等传统存储器件具有更广阔的发展前景。但NVM器件单元一般仅能承受108~1012次写入,远小于传统DRAM器件的使用寿命。而应用负载的写分布不均更是加速了器件的老损,如何延长NVM器件的使用寿命是目前应用研究的难点之一。  针对现有NVM器件磨损均衡方案存
近年来,云盘凭借其高可用、高可靠、低成本以及可定制化的特点,在云块存储系统中的应用越来越广泛。云块存储系统后端有很多存储仓库,系统通过一定的分配策略将新云盘分配到最合适的仓库来供用户使用。随着云计算和互联网技术的快速发展,用户数据量显著增长,对云盘的分配策略带来了巨大的挑战。由于新云盘在分配前的负载信息未知,现有的云盘分配策略仅考虑存储容量维度,从而导致云块存储系统多维度资源(例如容量、IOPS、
学位