论文部分内容阅读
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决策机构构建一个规范化、数字化的战略研究环境。其子课题“工业生物技术知据仓库建设”是整个知识环境的数据支撑。
我们以工业生物技术领域不同的研究方向为依据,划分出不同的主题并按照这些主题的关键词定期从不同的数据源提取相应的文献专利信息,并将其整合到本地关系数据库中。并在这个整个的数据库的基础上进一步开发,实现一个基于web的信息展示平台。本文的设计目标即:以数据仓库理论为指导,开发一个面向决策分析的知识仓库系统。本文首先研究了数据仓库的原理以及数据仓库系统的架构特点,探讨了公共仓库元模型(CWM)及其对数据仓库过程的支持。并在此基础上提出了工业生物技术知识仓库系统的结构和设计目标,主要包括:数据仓库数据模型的建立,ETL工具的设计与实现,基于web的信息展示平台的开发及OLAP初步实现。工业生物技术知识仓库系统的主要数据源包括:PubMed数据库和ISI Web ofScience数据库的文献数据以及DⅡ(德温特世界专利索引)数据库的专利数据。在研究了上述文献专利数据的特征后,本文设计了数据仓库的多维数据模型;并根据数据源的特点设计实现了系统的ETL工具;在此数据仓库的基础上,开发了基于web的信息展现平台,初步实现了面向用户的信息展现和OLAP功能。本文的数据仓库系统以MySQL关系数据库作为数据库存储服务器;ETL工具采用Java和ruby语言编码实现;web信息管理平台采用基于MVC模式的ThinkPHP框架实现。目前系统已集成了包括10个主题在内的12万条文献数据和6万条专利数据。