生物概率网络中频繁模体高效挖掘的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:kyn5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物技术的发展,出现了很多生物网络数据,生物网络数据规模有了显著地增加,包括蛋白质作用网络,新陈代谢网络,基因调控网络等。如何从这些数据中挖掘出与功能相关的结构是目前的一个研究热点。模体是指在某个网络的多个不同部分出现的某一相互连接的子结构,其表达程度明显高于在随机网络中的表达。如何从生物网络中挖掘出模体是研究生物体进化和生物网络结构的关键一步。目前的模体识别方法主要是针对确定图,但是研究得到的生物网络数据通常带有不可避免的实验误差或噪声数据,同时,生物进化过程本身也是一种动态变化的过程。因此生物概率网络的研究更具生物意义。  在目前已有研究中,主要采用可能世界模型,即将每个概率予图映射为2n个可能的图实例,其中n为子图边数。随着模体规模的增大,枚举的图规模将急剧增加,算法的复杂度呈指数级增长。基于电路模拟法判别概率子图同构算法,避免了使用传统算法中的可能世界模型,将子图同构的拓扑比对转化成节点电压序列的比较。但是因需要对每个节点进行全激励,效率较低。生物概率网络模体识别分为三部分,概率子图搜索、概率频繁模式识别和模体统计意义计算。但随着模体节点数的增加,对应的子图数量也急剧增加,从而使模体识别在时间和空间消耗上都超出了单机的处理能力。  针对这些问题,本文的主要工作如下:  在电路模拟法的概率子图同构算法(Probability Subgraph Isomorphic based on CircuitSimulation,PSI-CS)基础上,基于在两个概率同构子图对应的伴随电路中,对应节点在相同全激励下会产生对应相似的节点电压序列的思想,提出单节点全激励的概率子图同构算法(Probability Subgraph Isomorphic based on Single Node with Complete Excitation, PSI-SNCE),该算法通过添加一个参考节点并施加全激励,不需要对子图中的每个节点进行全激励计算节点电压序列,从而使求解方程组的次数减少约n倍(n为子图的顶点数),效率得到大大提高。  在非树形子图枚举算法(Enumerate Non-tree Subgraph,ESN)和基于划分的非树形子图搜索算法(Partition-based Non-tree Subgraph Search,PNSS)基础上,提出一种适合于并行化环境的非树形子图搜索算法:基于序号的非树形子图搜索算法(Order-based Non-treeSubgraph Search,ONSS),能够在保证子图搜索的唯一性、不遗漏性及不重复性的基础上,将任务均衡分布到并行计算节点上,效率得到显著提高。  聚类过程是概率频繁模式识别算法中计算复杂度最高的部分,为此提出聚类过程的并行化方案,在迭代运算较优的Spark集群环境中并行化实现。在概率频繁模式识别的聚类过程中,采用PSI-SNCE算法计算两概率子图是否同构,若同构,则聚成一类,若不同构,则保持不变。最后将满足要求的少量概率频繁模式进行模体统计意义计算,得出P-Value值,即可得出概率模体。  在生物网络E.coli、S.cere1和S.cere2数据集上进行实验,结果表明,本文提出的PSI-SNCE算法、ONSS算法及概率频繁模式识别算法的并行化方案在保证正确性的前提下,能够有效地降低概率模体识别的时间,并具有较好的可扩展性。
其他文献
射频识别(Radio Frequency Identification,RFID)是一种快速、实时、准确采集与处理信息的技术,在零售、物流、交通、医疗、国防等多个领域有着广阔的应用前景。其中,RFID中
服装CAD系统自二维向三维转变,是三维计算机技术成熟与服装个性化定制的一个必然趋势与结果。在整个服装CAD系统中,三维服装设计是最核心的部分。所以服装的褶皱的设计对提高
水平基因转移(Horizontal gene transfer,HGT),又称横向基因转移(Lateral gene transfer,LGT),是指在不同的生物个体之间遗传物质的交流,即从亲代以外的个体中获得遗传物质的
本文在分析国内外分布式信任模型以及P2P中存在的安全问题的基础上,结合现实世界中的社会关系网络,提出了一种新型的信任模型BGTR以及在此基础上设计了激励机制SOIM。该模型
随着语义Web的发展,已经有大量语义Web数据存在。然而许多数据缺少结构和丰富的知识表示,本体的不完备性比较严重。本体学习能够降低本体的不完备性,是语义Web能否成功的关键之
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文
无线传感器网络是一种由大量传感器节点构成的网络,用于协作的探测、采集和处理网络覆盖的地理区域中感知的信息,近年来得到了广泛的应用。安全问题是无线传感器网络中的基本
随着计算机与网络技术的快速发展,网络已成为人们存储与获取信息的主要手段,存储于网上的文本数量也成指数级增长。这在为用户提供了海量信息的同时,也给用户从中获取有用信
无线自组织网络(Ad Hoc)是当前无线通信领域一种新的、正在发展的网络技术,它正在迅速地从军事通信渗透到相关的民用通信领域。在移动无线自组网中,广播被广泛地用于路由发现
鉴于人脸检测技术在安全访问控制、视觉监测、基于内容的检索和新一代人机界面等领域具有广泛的应用背景,一直是模式识别和人工智能等领域的重要研究课题。由于人脸是由复杂的