【摘 要】
:
在众多生信分析问题中,生物序列k-mer频次信息因蕴含着关键的序列特征,被序列比对、重复检测、序列校正、物种鉴定、motif发现及序列纠错等众多生信软件所采用,是其应用中不可或缺的一步。面对大规模序列数据分析,k-mer频次信息的存储空间消耗及统计速度慢带来的问题变得不可忽视。本文针对当前k-mer频次统计工具内存及磁盘空间消耗大的缺点,根据组装后序列数据统计规律,提出了一套内存消耗低、运行速度快
论文部分内容阅读
在众多生信分析问题中,生物序列k-mer频次信息因蕴含着关键的序列特征,被序列比对、重复检测、序列校正、物种鉴定、motif发现及序列纠错等众多生信软件所采用,是其应用中不可或缺的一步。面对大规模序列数据分析,k-mer频次信息的存储空间消耗及统计速度慢带来的问题变得不可忽视。本文针对当前k-mer频次统计工具内存及磁盘空间消耗大的缺点,根据组装后序列数据统计规律,提出了一套内存消耗低、运行速度快、存储空间节省的k-mer频次统计方案—KCOSS。当序列长度小于等于14时,KCOSS采用静态哈希表。通过复合的双射函数,将k-mer的二进制键值结果与位置相关联,以减少存储空间的消耗。该方案的存储空间消耗量与序列长度无关,k-mer种类越多与同类算法相比空间节省越明显。当序列长度大于14时,KCOSS使用布隆过滤器用于分流,将首次出现的k-mer存放在重叠序列集合中,将多次出现的k-mer分流到由静态哈希表和动态布谷鸟哈希组成的两级哈希表中。连续出现的k-mer不再独立存储相关键值对,仅存储新出现的单个碱基,从而减少内存及磁盘使用。实现了面向共享内存的KCOSS算法,为提高KCOSS算法的并行性能,本文设计和实现了无锁线程池、无锁分段布隆过滤器、无锁紧凑型哈希表三种并发结构以减少的共享内存的竞争访问;此外,本文还实现了对存储块空间的自主管理,并通过异步处理和磁盘映射加速存储过程。与主流的Jellyfish2和KMC3进行对比。实验结果表明:在使用人类基因组序列数据测试中,当线程数为24时,KCOSS比KMC3快22.91%至169.90%,比Jellyfish2快527.62%至806.43%。当线程为48时,KCOSS比KMC3快77.27%至170.58%,比Jellyfish2快529.60%至675.84%。当k为62时,KCOSS与KMC3使用内存相近,但仅需Jellyfish2的16.67%。对于硬盘存储,KCOSS只需要Jellyfish2的12.40%至17.84%的存储空间,KMC3的15.73%至30.69%的存储空间。
其他文献
随着我国经济社会的快速发展,电力行业的规模也不断在扩大,电力企业传统的管理模式造成大量浪费,增大了投入成本,为了控制成本,为了能在如今激烈的市场竞争中保持活力,需要引入新的管理理念与模式。全生命周期管理理念起源于管理专业中全生命周期成本管理,后者通过建立全生命周期成本估算模型,综合设备全生命周期各个阶段包括购置、运维、报废等等产生的成本,从全局角度出发从长远经济效益考虑使得该成本模型最低从而降本增
神经影像技术能够以非侵入的方式对大脑结构和功能进行成像,通过分析该类影像数据可获得大脑结构形态与功能连接等信息。如今神经影像技术正不断发展,帮助神经信息学研究者通过多种角度分析并探寻更深层次的神经精神疾病病理机制,实现神经精神疾病的辅助诊断。尽管如此,神经影像数据模式分析研究的成果产出和转化仍然受制于一系列亟待解决的矛盾:(1)有限的数据和计算资源与数据驱动机器学习的支撑需求;(2)有限的时间精力
近年来,由于数据量的增长、运算能力的提升和训练算法的创新,深度神经网络已经成功地应用于许多实际场景中。然而,这样的成功在很大程度上依赖于大量昂贵的有标签数据。为此,研究人员提出了同时利用少量的有标签数据和大量的无标签数据来促进深度神经网络学习的半监督学习方法,并且在众多任务中都取得了出色的效果。针对有标签数据数量有限的问题,本文提出了两种半监督学习方法来缓解深度神经网络对有标签数据集的依赖。针对现
冷凝器是在能源、化工、电力、制冷等领域中广泛使用的换热部件。通常根据制冷剂的相态将冷凝器内的传热过程分为过热区、两相区和过冷区,即传统的三区模型。三区冷凝模型在单相区与两相区之间出现换热系数突变,与实际不符,机理上无法解释。过热冷凝是冷凝的开始阶段,研究过热冷凝区的换热机理,正确认识其规律。本文通过实验及数值模拟对过热冷凝区域的传热性能和流动特性进行研究。设计并搭建过热冷凝实验台,分别在内径5mm
淀粉、纤维素作为自然界存储量最多的两种天然高分子材料,其葡萄糖单元上的多羟基所赋予的强极性和亲水性等特征却严重限制其在复合材料领域的应用。为提高淀粉、纤维素的界面反应能力,本论文以H2O2与低浓度Cu2+催化剂可控氧化反应,对其进行羧基化改性。在此基础上,将所制备的羧基淀粉(OST)和羧基纳米纤维素(OCNC)分别用于增强羧基丁腈橡胶(XNBR)和热塑性淀粉(TPS),利用界面反应显著提高XNBR
预压装配式框架结构是一种节点整体性较好、自复位能力强的装配式结构体系,对我国装配式结构的发展具有重要的意义。目前国内外针对预压装配式框架结构的研究虽已取得一些成果,但对此类结构的抗震性能评估和抗震设计方法尚未完善。我国抗震规范采用小震弹性设计方法,其隐含的对所有结构取统一的反应修正系数2.86而忽略结构延性和耗能能力的差异的设定,不能发挥预压装配式框架结构的性能优势。为研究此类结构的抗震性能和抗震
由于城市居民交通出行需求的不断增长,道路交通的方向性协调控制需求日益明显。为了实现城市交通信号控制的精细化,协调对象的选取不应停留在子区层面,而需要进一步细化到有向路径连线上。对此,本文以车辆轨迹数据作为数据支撑,以协调路径集作为研究对象,从协调对象的选取、协调模型的建立以及控制方案的评价等方面展开相关科学研究,着重区域协调路径集的构成与优选方法、面向区域协调路径集的信号控制模型、协调路径集控制效
视频目标分割是计算机视觉中一个重要的研究方向,其任务是在视频序列中,逐像素地分割出每帧中感兴趣的目标区域。视频目标分割可以应用于视频编辑、视频压缩等实际场景中,也可以为动作识别、视觉跟踪等任务提供预处理,具有较高的研究价值与广泛的应用场景。然而,在视频目标分割中,待分割视频可能存在多种复杂情况如目标遮挡、背景干扰等,目标分割难度高,并且算法的精度与速度难以同时兼顾。针对如何解决多种分割难点,同时兼
热作模具钢服役环境恶劣,需要承受高温高压、热疲劳、高温熔体冲蚀等过程,恶劣的服役环境导致一系列失效如:变形、熔蚀、磨损、热疲劳开裂等,提升热作模具钢的寿命是工业领域一个重要的问题。本文利用空心阴极离子源辅助离子渗氮设备,分别在N2-H2、N2-CH4、N2-H2-CH4气氛中对H13钢进行低温离子渗氮与氮碳共渗,用光学显微镜、扫描电子显微镜(SEM)、X射线衍射仪(XRD)、X射线光电子能谱仪(X
聚对苯二甲酸二乙酯(PET)是一种典型的线性热塑性树脂材料,被广泛用于制造纤维,薄膜和饮料瓶。然而,PET为人类带来生活便利的同时也对全球环境造成不利影响,因为其难被降解,造成了严重的白色污染。最近,学者们经分子改造获得了一个快速降解PET的耐热角质酶,本研究在大肠杆菌BL21(DE3)中重组表达了该角质酶,研究了其相关酶学性质,并使用物理手段(超声波辅助)和生物手段(分子改造)来促进LCC降解P