CSMR:面向生物资源类文献的生物资源信息采集与引用关系挖掘平台

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:kevin_0713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物资源是世界上分布最广、种类最多的生物资源。目前全球有超过16万的微生物物种存在。它们与人类的生产生活密不可分,涉及到农业、林业、工业、医药等各个领域。人类对微生物资源的科学研究开展了数百年,科学研究成果已经发表数千万篇科学文章和专利。这些文章与专利分布在近百家科学出版商和专利机构。如何能够科学有效的采集、挖掘、提取、分析这些科学文献,将对微生物资源的科学研究及实际应用起到极其重要的辅助作用。   目前国际上主要的文献机构(杂志社,电子出版商,搜索引擎等)一般都仅提供专业的文献存储与查询服务。而对于特定领域的文献资源收集和挖掘则罕有公开免费的数据平台。   本论文描述的微生物资源引用分析平台CSMR(Citations Statistics ofMicrobial Resources)是利用搜索引擎(Search Engine)、文本挖掘(text mining)、统计分析等信息技术手段实现的对生物资源类文献进行信息采集、数据整理和引用关系挖掘的Web交互平台。   该平台首先旨在通过“网络资源分析抓取工具”和“半结构数据解析工具”采集文献信息源的数据和文件,其次使用“文本挖掘工具”从中提取文献与生物资源(菌种和物种等)之间的引用关系,最后借此对生物资源和生物资源保藏中心进行评价。   通过该平台,我们扩大了可挖掘的文献对象集合规模;提升了引用关系的发现效率,在文献载体与菌种资源间建立起关联;为统计、分析、评价等工作提供了大量材料、方法与工具。主要取得了以下三项成果:   1)通过使用三种信息采集技术(Web爬虫、FTP镜像、CGI接口调用)根据特定情况收集获取文献信息和生物资源,并对之加以整合。利用多个数据源的完整性与丰富性,建立起了关于生物资源类文献的元数据信息库,以及全文库。实现了元数据的过滤、集成、本地化。   2)应用并改进关键词提取、潜语义模型等算法,从生物资源类文献的元数据和全文中挖掘出对生物资源的引用信息。通过对算法的实现与改进、自动挖掘与人工调整的相互协调,系统地对挖掘结果进行了分级、加权、辅助引用以及添加指数等操作,有效的提升了挖掘效果,得到相对精准的微生物资源与文献间的引用挖掘结果。 3)在展示系统前端嵌入根据Rochio规则设计的局部负反馈系统,通过系统和用户之间的交互更新挖掘参数。通过验证,该反馈一定程度上能够提升挖掘结果的准确率,同时使得评价与统计结果趋于精准可信,并据此建立评价体系。 在上述工作的基础上,以文献为对象,对菌种资源的引用情况进行分层与加权统计,间接对保藏中心在生物领域研究所做贡献做出评价。通过多个统计模型的使用和对比。基于我们形成的客观统计结果,验证了这些统计公式的合理性。
其他文献
假块污染攻击(fake block attack)是一种严重破坏P2P文件共享网络的攻击方式。假块污染攻击者在客户端下载文件时,提供非用户期望的数据,导致客户端下载文件失败。这种攻击方
公共上机实验环境是一种广泛存在的计算机(群)应用方式。以校园机房的计算机实验教学活动为例,长期以来,参与教学实验的教师,学生用户没有动态,自主的构建个性化上机实验环境
物联网技术通过各种传感器对环境信息进行全面采集,按照约定的协议,通过现有的网络技术,把信息传送到应用平台进行处理,实现对物体的智能化控制。物联网技术正逐步得到发展,
RPKI(Resource Public Key Infrastructure,互联网码号资源公钥证书体系)是一种用于保障互联网基础码号资源(包含IP地址、AS号)安全使用的公钥基础设施。通过对X.509公钥证书扩
形式验证的方法主要有模型检测和演绎推理两种。模型检测的优点是验证过程是自动的,缺点是具有状态爆炸问题,不利于处理大型系统。演绎推理具有可以处理无穷状态系统的优点,但验
在作为LTE-Advanced系统的一项关键技术的协作多点传输(CoMP)技术中,在地理位置上分离的多个传输点,协同参与为一个终端的数据传输或者联合接收一个终端发送的数据,从而降低
股市波动风险的复杂性和不可预测性很大程度上影响着投资者决策,容易造成选股不当、投资规模和比例配置失误,以至难以实现收益最大化。本论文旨在揭示中国股市波动性的特性、进
近年来,随着移动智能终端的普及和移动互联网的飞速发展,移动智能终端逐渐取代传统计算机平台成为人们的主要计算平台,渗透到人们生活的方方面面。在给人们生活带来巨大方便的同
物联网的概念和应用在近几年逐渐被人们所了解,作为一种有极大发展潜力的技术,整个物联网产业链将会产生数以万亿级别的利润,所以物联网产业必然成为了全世界各个国家所重点
信息物理融合系统是近年来研究的一个热点领域,它集成了计算成分和物理成分,这类系统具备计算、通信及控制行为能力,包含离散和连续混合特性,往往应用于安全攸关的领域,如智