基于图数据的模式挖掘研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:kasuo11111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的蓬勃发展,海量有价值的图或网络数据不断涌现。图中的节点或边之间普遍存在较强的关联性,例如,社交网络中用户间的消息传递,网络安全中网络节点间的攻防对抗,文献引用网络中文献间的引用等。该关联性可被表示为“序列模式”,针对其的挖掘研究具有重要的科学价值,不但能够总结出关联特性及分布规律,并用于分类、预测等实际应用场景;而且能够与图结构特征相结合,进而可提升图计算的效率与精度。基于以上背景,本文提出将图数据的结构特征与序列模式相结合,从基于图数据的序列模式的发现(discovery)、提炼(refinement)和实际应用(application)三个关键过程开展如下四项研究:1、图中前k项序列模式挖掘真实网络应用中,图节点往往关联了丰富的内容信息,导致已有方法在挖掘序列模式时存在存储困难、时间开销大、挖掘计算难等问题。基于此,本文首先提出一种全新的图模型——事务数据库图(transcation database graph),并提出一种高效的两步采样框架,能够在保证挖掘准确度的同时显著改善挖掘效率。该框架设计了针对序列模式频率的无偏估计量,根据该估计量首先从图中均匀随机地采样路径,随后从每条采样得到的路径上均匀采样事务序列并赋权,最终在加权的序列集合中进行模式挖掘。通过证明可得该采样过程是均匀采样,且可给出采样数的联合上界。在合成和真实数据集进行的实验验证了该框架的有效性。2、图中前k项序列模式的快速近似前述问题设定仅考虑了丰富网络内容与节点相关联的情况,忽略了与连边相关联的情况。这导致了已有的方法不能直接处理事务数据库构建于连边的情况,且求解过程依然存在极大的时间开销。基于此,本文提出基于并行采样的快速近似方法。该方法主要应用了两项关键技术:一是基于序列平衡图划分策略的无偏序列采样技术;二是基于序列反单调性的新颖树型计算结构的高效挖掘技术。这两项技术能够在保证近似求解精确度的同时提高序列模式挖掘的效率。在合成和真实数据集的实验结果指出,本项工作所提出的方法能够以较高的效率和准确率近似得出前k项频繁序列。3、融合图结构信息的序列模式提炼已有的序列模式挖掘方法往往只考虑出现的频率等统计规律,导致所挖掘出的序列模式可用性不高。本工作将图的网络结构与序列模式相结合,提出在频繁序列模式的发现过程中实现提炼和过滤。基于此,首先给出具有图结构和序列模式时序性双重特征的新结构“轨迹热点”的结构定义,即由若干含有相同序列模式的轨迹所覆盖的紧密子图结构。为主动发现此类结构,本工作首先证明了该问题的计算复杂度,探索了轨迹热点的特征属性规律。在此基础上,提出了一种高效可扩展的主动发现方法,充分利用了轨迹热点结构和序列的反单调性,能够有效剪除不合规的序列模式,从而提高搜索效率。同时,为避免重复性发现和搜索造成的额外开销,设计并实现了高效的索引结构,支持轨迹热点的存储、更新和高效检索。在真实数据集上的实验指出,所提出的方法具有高可扩展性和有效性。4、基于序列模式的分布式子图匹配应用针对序列模式在实际业务场景中的应用问题,区别于以往其应用于分类与预测任务,提出将序列模式应用于子图匹配问题的剪枝优化操作上。本工作首先定义了一种“分解-组合”的分布式子图匹配框架,首先将查询图和数据图分解为子图,随后查询子图在数据子图中进行同构匹配形成中间解,最终中间解进行组合以应答原始查询图。其中,每个数据子图均可针对节点的邻居信息形成路径,从路径中可导出标签序列模式,与查询图中节点的标签序列模式进行比对和匹配后可对不合规的节点进行剪枝。实验结果证明,将序列模式用于剪枝过程中可有效降低计算的时间和空间开销。
其他文献
目的 研究左心房(LA)相关CT参数对心房颤动射频消融术后复发的预测价值.方法 选择2019年5月~2020年5月接受射频消融治疗的80例房颤患者,随访术后1年房颤复发情况并分为复发组(n=28)和未复发组(n=52).比较两组患者术前LA容积(LAV)、LAA容积(LAAV)、LAA开口面积(LAA CSA)、右上PV开口面积(RSPV CSA)、右下PV开口面积(RIPV CSA)、左上PV开口面积(LSPV CSA)、左下PV开口面积(LIPV CSA)的差异,采用ROC曲线分析不同指标对房颤复发的
目的 研究分析磁共振神经突定向扩散与密度成像(NODDI)联合T2*加权磁敏感动态增强灌注加权成像(DSC-PWI)对脑胶质瘤分级诊断的临床价值.方法 选取2019年12月~2021年5月我院临床高度怀疑胶质瘤并术后病理明确的患者29例作为研究对象,其中Ⅱ级及以下为低级别胶质瘤(LGG)共12例,Ⅲ级、Ⅳ级为高级别胶质瘤(HGG)共17例.患者于干预措施前行常规MRI扫描、NODDI及DSC-PWI扫描,利用后处理软件获取患者NODDI各参数图[神经突内容积比(ICVF)、神经突起方向分散程度(ODI)和
病例资料 患者,女,65 岁,2 个月前无明显诱因下出现咳嗽,胸骨下轻微疼痛,无咳痰咳血等,自行口服止咳药未见好转.遂于当地医院行CT 检查示胸腺区域肿块,考虑胸腺瘤可能.为求进一步诊治,遂来院收治入院.rn影像表现:CT 增强显示前纵隔胸腺区域肿物,大小约4.0 cm×3.0 cm,密度尚均匀,形态不规则,可见分叶,平扫约53 HU ,增强后约 86 HU ,包膜欠光整,周围脂肪间隙模糊(图 1a、1b ) ,肿块局部与主肺动脉血管壁分界不清,与心包上缘分界不清,肿块上缘包绕侵犯左侧锁骨下静脉及左侧颈内