工业生物技术知识仓库系统研究及原型实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:XYYWLC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决策机构构建一个规范化、数字化的战略研究环境。其子课题“工业生物技术知据仓库建设”是整个知识环境的数据支撑。   我们以工业生物技术领域不同的研究方向为依据,划分出不同的主题并按照这些主题的关键词定期从不同的数据源提取相应的文献专利信息,并将其整合到本地关系数据库中。并在这个整个的数据库的基础上进一步开发,实现一个基于web的信息展示平台。本文的设计目标即:以数据仓库理论为指导,开发一个面向决策分析的知识仓库系统。本文首先研究了数据仓库的原理以及数据仓库系统的架构特点,探讨了公共仓库元模型(CWM)及其对数据仓库过程的支持。并在此基础上提出了工业生物技术知识仓库系统的结构和设计目标,主要包括:数据仓库数据模型的建立,ETL工具的设计与实现,基于web的信息展示平台的开发及OLAP初步实现。工业生物技术知识仓库系统的主要数据源包括:PubMed数据库和ISI Web ofScience数据库的文献数据以及DⅡ(德温特世界专利索引)数据库的专利数据。在研究了上述文献专利数据的特征后,本文设计了数据仓库的多维数据模型;并根据数据源的特点设计实现了系统的ETL工具;在此数据仓库的基础上,开发了基于web的信息展现平台,初步实现了面向用户的信息展现和OLAP功能。本文的数据仓库系统以MySQL关系数据库作为数据库存储服务器;ETL工具采用Java和ruby语言编码实现;web信息管理平台采用基于MVC模式的ThinkPHP框架实现。目前系统已集成了包括10个主题在内的12万条文献数据和6万条专利数据。
其他文献
指令级测试方法是一种通过指令测试微处理器自身故障的测试方法。指令是微处理器芯片区别于其他芯片的重要特点。指令流控制微处理器的运行,可以影响到微处理器所有的内部逻辑
Maze是教育网上非常受欢迎的P2P文件共享系统,本文设计和实现了一个基于Maze的集中式的视频点播系统-MazeTube。   MazeTube的定位是Maze的视频门户。它的主旨,在于充分利用
Modelica语言仿真建模在科研工作中已经得到了广泛应用。它能方便地对包含机械、电子、液压、控制、热流等领域的复合物理系统进行基于组件的仿真。现有基于Modelica语言的仿
近年来,随着多媒体技术和互联网技术的快速发展,现代计算机硬件存储介质价格的不断下降和以P2P技术快速发展为代表的网络传输技术的成熟,使得视频在人们生活中的很多领域变得越
在实时系统中,每个任务都应在某种程度上满足时间约束的限制,任务的正确性不仅依赖于其计算结果,还依赖于这个结果产生的时间。此类系统中应用程序的执行时间应当是确定的,以此保
关于磁盘阵列在线重构的研究一直以来都是国内外研究热点。除了构造严重受限或者极其昂贵的磁盘阵列之外,国内外现有研究一直解决不了重负载持续访问下磁盘阵列重构性能急剧恶
形式化验证主要是通过精确的分析来证明或证伪硬件或软件系统中一些明确的声明或者性质。形式化验证方法在广义上可以分成两大类:模型检测和定理证明。模型检测由对模型的所有
随着P2P成为互联网上的主流应用,以用户资源共享为目的P2P文件共享系统,在安全、版权等方面暴露出了巨大的问题。P2P文件共享系统点对点的分发特性,使其分发内容具有用户自主性
高性能应用对计算能力的需求永无止境,导致并行计算机系统在不断提高单处理器性能的同时不断增大系统规模。机群以良好的可扩展性、可靠性和高性能价格比,成为高性能计算机系统
当前,IPTV业务正迅速发展并成为互联网中一种新型的重要网络应用。在提供全新观看体验的同时,IPTV在设计、管理、流量监管、服务质量等方面仍存在新的挑战。对IPTV进行测量研究