论文部分内容阅读
微生物资源是世界上分布最广、种类最多的生物资源。目前全球有超过16万的微生物物种存在。它们与人类的生产生活密不可分,涉及到农业、林业、工业、医药等各个领域。人类对微生物资源的科学研究开展了数百年,科学研究成果已经发表数千万篇科学文章和专利。这些文章与专利分布在近百家科学出版商和专利机构。如何能够科学有效的采集、挖掘、提取、分析这些科学文献,将对微生物资源的科学研究及实际应用起到极其重要的辅助作用。
目前国际上主要的文献机构(杂志社,电子出版商,搜索引擎等)一般都仅提供专业的文献存储与查询服务。而对于特定领域的文献资源收集和挖掘则罕有公开免费的数据平台。
本论文描述的微生物资源引用分析平台CSMR(Citations Statistics ofMicrobial Resources)是利用搜索引擎(Search Engine)、文本挖掘(text mining)、统计分析等信息技术手段实现的对生物资源类文献进行信息采集、数据整理和引用关系挖掘的Web交互平台。
该平台首先旨在通过“网络资源分析抓取工具”和“半结构数据解析工具”采集文献信息源的数据和文件,其次使用“文本挖掘工具”从中提取文献与生物资源(菌种和物种等)之间的引用关系,最后借此对生物资源和生物资源保藏中心进行评价。
通过该平台,我们扩大了可挖掘的文献对象集合规模;提升了引用关系的发现效率,在文献载体与菌种资源间建立起关联;为统计、分析、评价等工作提供了大量材料、方法与工具。主要取得了以下三项成果:
1)通过使用三种信息采集技术(Web爬虫、FTP镜像、CGI接口调用)根据特定情况收集获取文献信息和生物资源,并对之加以整合。利用多个数据源的完整性与丰富性,建立起了关于生物资源类文献的元数据信息库,以及全文库。实现了元数据的过滤、集成、本地化。
2)应用并改进关键词提取、潜语义模型等算法,从生物资源类文献的元数据和全文中挖掘出对生物资源的引用信息。通过对算法的实现与改进、自动挖掘与人工调整的相互协调,系统地对挖掘结果进行了分级、加权、辅助引用以及添加指数等操作,有效的提升了挖掘效果,得到相对精准的微生物资源与文献间的引用挖掘结果。 3)在展示系统前端嵌入根据Rochio规则设计的局部负反馈系统,通过系统和用户之间的交互更新挖掘参数。通过验证,该反馈一定程度上能够提升挖掘结果的准确率,同时使得评价与统计结果趋于精准可信,并据此建立评价体系。 在上述工作的基础上,以文献为对象,对菌种资源的引用情况进行分层与加权统计,间接对保藏中心在生物领域研究所做贡献做出评价。通过多个统计模型的使用和对比。基于我们形成的客观统计结果,验证了这些统计公式的合理性。