面向NoSQL数据库的JSON文档异常检测模型

来源 :四川大学 | 被引量 : 0次 | 上传用户:seny668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的快速发展,以数据驱动为中心的数据库发展创新在诸多领域都有着显著作用,如材料领域,生物医学领域。但是面对不断增长的数据量、多源异构的数据特征的挑战,传统的关系数据库明显难以处理。例如,在材料领域,由于材料数据的多样性,各种材料之间没有统一的数据表达和记录方式,材料数据的应用目的和需求也各不相同,数据的存储愈加复杂。可利用NoSQL的无模式存储、高扩展性等特性来解决这一难题。作为NoSQL数据库常用的数据存储格式,JSON因其简单性和灵活性倍受欢迎。然而NoSQL数据库缺乏模式信息,在JSON文档存入数据库之前,需要对其进行分析验证。现有研究方法对于JSON文档的结构分析存在缺陷,并且没有考虑对JSON文档的语义进行分析。例如,对于参考文献的引用,在不同标准下,论文的引用格式在结构上可能有所差异,但如果进行深层次的语义分析,会发现并无较大差异。对此,提出JOSN文档的结构异常检测与语义异常消除问题。主要贡献如下:(1)提出了面向NoSQL数据库的JSON文档异常检测模型doctor JSON,主要包括4个模块:JSON schema抽取模块、JSON schema校验模块、JSON文档检测模块、分类模块。其中JSON文档检测模块为JSON文档异常检测模型的核心,主要工作是对JSON文档进行结构异常检测和语义异常消除。(2)针对JSON文档的结构异常检测问题,提出了基于规则的JSON文档结构异常检测算法deout JSON和基于关键字删除的JSON文档结构异常检测算法deout JSON+。对JSON文档的结构异常检测问题进行了形式化的定义,定义了JSON文档中的3类结构异常数据:kv.key冗余异常、kv.key缺失异常、kv.value类型异常。设计了基于规则的结构异常检测算法deout JSON,精确地识别JSON文档中的3类结构异常数据,deout JSON算法主要包括关键字候选集合产生、关键字候选项对比、异常数据生成这3个部分。在关键字候选集合产生阶段,提出了优化策略对关键字候选集合中关键字进行排序处理,有效降低枚举树产生的关键字对比组合;在关键字匹配候选项对比阶段,使用枚举树技术生成关键字对比组合,根据JSON文档的性质提出了优化策略忽略JSON文档中跨层级的键值对,提高算法运行效率,从不同粒度进行异常检测,用于精确识别并定位异常数据;在异常数据生成阶段,提供两种形式的异常数据检测结果,检测结果的对比将更加直观明显。为了消除关键字候选项对比阶段产生的冗余对比组合,设计了基于关键字删除的结构异常检测算法deout JSON+,有效地提升了算法的结构异常检测效率。(3)针对JSON文档的语义异常消除问题,设计了基于关键字相似度的JSON文档语义异常消除算法disema JSON,对JSON文档中的语义异常消除问题进行了形式化的定义。通过词向量的相似性对JSON文档进行语义分析,对语义中出现的歧义项进行词替换以实现语义异常消除。disema JSON算法主要包括关键字向量化、关键字匹配字典生成、关键字替换3个部分。关键字向量化阶段采用词嵌入(word embedding)的技术,通过将提取的关键字集合输入word embedding模型,得到词向量的输出结果;关键字匹配字典生成阶段采用Hash Map技术存储语义异常项,同时观察语义异常数据的特征并提出了语义异常数据检测的策略:对JSON文档中的冗余异常数据执行disema JSON算法用于消除JSON文档中的语义异常;关键字替换阶段对关键字匹配字典中语义异常的关键字使用Top-K排序,选择相似度最大的关键字进行替换以实现语义异常消除。(4)在多个真实数据集和合成数据集上进行了翔实的实验,验证了deout JSON算法、deout JSON+算法的有效性、高效性,验证了disema JSON算法的有效性,通过消融实验验证了优化策略的有效性,并对检测的结果进行了实例分析。
其他文献
随着网络的普及以及大规模食物数据的涌现,为了有效获得所需的食物信息,食物计算领域的跨模态菜谱检索得到了广泛关注。跨模态菜谱检索是食物图像和菜谱之间的相互检索,跨模态菜谱检索的难点在于食物图像和菜谱之间的关系极为复杂:有较多的食物图像外观相似且部分图像存在着干扰信息;在烹饪过程中有的食物配料变得不可见或者配料外形会发生变化;烹饪指示中暗含着配料与食物成品图像的某种关系。现有研究方法存在的问题:1.由
三维探测技术具有广泛的应用价值,在地形获取、自主定位、实景模拟、工业生产等诸多领域具有重要的推广及理论研究意义。作为三维探测技术驱动核心的场景深度信息获取是计算机视觉领域的热门研究课题之一,近年来受到了研究人员的广泛关注。传统深度信息获取方法大多采用基于多视图的双目立体匹配或从运动恢复结构的方式,对输入图像及相机拍摄参数的限制要求较多,提高了深度信息获取的门槛。因此,采用更少场景图像输入、对相机硬
红外成像仿真技术能够有效克服时间、环境、地域的限制获取不同环境条件下的红外图像,传统基于场景建模的仿真方法存在建模复杂度高、建模时间长等缺点,随着增强现实技术的发展,在真实场景中加入虚拟仿真物体能够避免大范围的场景建模工作,方便快捷地生成红外仿真图像。为保证仿真图像的视觉效果更加逼真,需要重点解决虚实融合的辐射一致性问题,即虚拟景物和真实背景应具有一致的红外辐射。在真实环境中,探测器接收到的辐射值
互联网发展日新月异,在改变人们生活娱乐方式的同时,也拓宽了社交渠道。交流分享不再受到距离限制,但问题亦接踵而至,攻击性言论犹如附骨之疽充斥在网络世界中,破坏着绿色文明的网络交流环境。攻击性言论是针对特定个人、群体进行言语攻击或能引起观者不适的文字内容,常见于各种社交媒体平台。准确的自动化检测工具能有效遏制攻击性言论的泛滥,故研究聚焦于使用机器学习方法检测识别攻击性言论。攻击性言论相关子任务包括了检
随着知识图谱技术的发展与成熟,其作为一个结构化的知识库被应用到各个领域,尤其是在基于知识库的问答领域。知识库问答是其接受一个自然语言式的问句并经过语义理解后结合知识库返回答案,不同于传统基于关键字的检索式问答,知识库问答直接给出精准答案,不需要用户进行二次查找或推理,使答案获取方式更加简单高效。然而,目前知识库问答的整体准确率不高,其主要原因包括两点:实体名拼写不规范、问句上下文信息不足和知识库中
面部表情是一个人表达情绪最直接的形式之一。由于人机交互的发展,许多领域开始关注人脸表情识别。近几年深度学习方法显著提升了人脸表情识别准确率,但在实际应用中仍存在一些问题:首先,深度学习需要大量训练数据,但现有人脸表情数据库不足以训练出在实际应用中能产生可靠结果的深度神经网络;此外,不同个体的差异,如表达情绪的方式和表情强度的差异,也会给人脸表情识别带来挑战。现有大多数表情识别方法一般将表情分为离散
在教育领域,“个性化学习”一直是经久不衰的话题。受限于技术水平和师资力量,其一直未能在实践中得到广泛应用。近年来,快速发展的人工智能和互联网技术重塑了个性化学习,为其在实践中的广泛应用创造了契机。领域知识模型和用户特征模型是个性化学习的两个重要根基。在实践中,通常使用知识图谱来构建领域知识模型。实体识别是构建知识图谱的第一步。在教育领域,实体识别也被称为“知识元抽取”。在已有研究基础上,本文重点对
白内障是当今发病率和失明率最高的眼科疾病之一。对预防失明来说,在早期及时发现并准确诊断出白内障尤为重要。临床白内障诊断往往需要眼科医生专业的知识和丰富的经验,但贫困和边远地区的白内障患者通常因为缺少专门的眼科医生而错失了诊治的机会。深度学习技术发展至今,在许多图像分类任务中都得到了广泛而成功的应用,然而,在白内障的自动检测任务中仍然存在着巨大的挑战。这是由于白内障及眼部B超图像的两个特点:首先,白
作为日常生活中最常看到的自然景色之一,树木模型广泛出现在影视、游戏、航空、军事等领域,是计算机图形学中真实建模领域的重要研究课题。但树木本身具有很高的复杂度,使得通过人工方法进行树木三维建模的工作非常繁琐。同时,属于同一科目的树木在形态上具有高相似性但又略有不同,如果通过人工手段对由同一科目的树木组成的森林进行建模,其工作量将会成倍增长。为了实现高效率的树木建模,近年来研究者们提出了基于植物生长模
全景视频作为一种新兴的媒体输入形式,因具备高自由度,高沉浸感等特点被广泛应用于场景漫游系统中。然而,利用全景视频仅能够在固定路径上观看360°的场景信息,无法从任意视点观看场景,从而无法实现真正的场景自由漫游。为实现场景的自由漫游,通常采用基于深度图像的绘制技术(Depth-Image-Based Rendering,DIBR),利用已知的图像信息与深度信息合成场景中任意视点的图像。然而,在DIB