论文部分内容阅读
当代科学研究活动依赖于大量的科学数据及其在网络环境中的共享和处理。基于网络协同科研环境的高性能数据处理技术有着重要的研究意义和迫切的应用需求。虚拟筛选是当前发展最为迅速的药物筛选技术之一,其廉价快速的特点大大改变了现代新药研发流程。虚拟筛选涉及和产生的数据具有数据量庞大、数据结构复杂多样等特点,通过建立高性能的数据处理系统可以大大提高科研效率,方便易用的数据传输和共享管理也可以更好地促进大范围的科研协作。
本文针对虚拟筛选数据量庞大和基于网络的虚拟筛选研究活动特点,研究并实现了基于浏览器的大数据上传技术和数据并行处理技术;针对虚拟筛选数据结构复杂多样的特点,研究并提出了可定制的快速数据抽取模型。取得的主要成果有:设计并实现了基于网络的支持虚拟筛选的高性能数据处理系统(HPDPVS)。HPDPVS系统实现了基于浏览器的大数据上传,可定制的快速的非结构化文本数据抽取,大数据并行处理等功能,同时充分重视了系统的集成性和易用性。本文通过实验对HPDPVS系统在虚拟筛选数据高性能处理方面的有效性进行了检验。目前,HPDPVS系统已经在抗禽流感病毒药物研究的国际合作中得到实际应用。
本文研究并实现的支持虚拟筛选的高性能数据处理技术为进一步提升大数据上传性能、大数据并行处理性能、与其他工具和平台的整合打下了良好的基础,将结合实际应用的情况继续改进和发展。