【摘 要】
:
随着互联网的飞速发展,人们对科技文献的获取方式发生了根本性改变。目前通过网络获取、阅读文献已经成为主流,为了推动科研成果的传播和利用,开放存取(Open Access)在这一背
论文部分内容阅读
随着互联网的飞速发展,人们对科技文献的获取方式发生了根本性改变。目前通过网络获取、阅读文献已经成为主流,为了推动科研成果的传播和利用,开放存取(Open Access)在这一背景下应景而生。开放存取的核心特征是在尊重作者权益的前提下,利用互联网为用户免费提供学术信息和研究成果的全文服务。本文工作基于在研的国家自然科学基金委开放存取科研数据平台项目,该项目拟研发的开放存取系统能够有效缓解当前国内科研文献数据的获取困难,有助于提升政府和科研机构在大数据时代对科研数据的管理能力。针对国家自然科学基金委源数据库中论文元数据格式不规范、属性错误、缺失等问题,本文构建了一个基于多数据源的数据获取和处理组件,从多个权威的科研论文数据源获取了约800万篇科研论文,并对论文元数据进行了系统地清洗、补全和去重,建立了海量学术论文数据库。学术论文是一种严谨的科技类文献且包含丰富的信息,合理利用论文数据可以有效地实现分析专家研究领域和兴趣、计算专家之间的科研领域相似度进而推荐相似专家等功能。基于在研项目的实际系统功能需求和所构建的大规模论文数据库,本文提出了一种基于主题模型的科研兴趣标签提取方法,该方法根据专家各自的论文集合,分析其论文的主题分布,配合主题在词语上的概率分布,找出对专家论文中贡献最大的词语作为科研兴趣标签,并与基于TF-IDF的标签提取方法做了对比。本文还提出了一种基于词向量模型的专家科研相似度计算方法,该方法利用主题模型生成的专家科研标签,通过计算标签关键词词向量之间的距离,进而获得专家之间的科研领域相似度。该相似度用于相似专家的推荐。实验表明,使用词向量的方法计算专家相似度可以很好地反映专家研究领域、研究方向之间的相似性和相关性。
其他文献
随着XML数据逐渐成为数据发布和交换的标准,对XML的高性能数据管理需要越来越迫切,但由于历史原因,关系式数据还占很大的市场份额,单纯的XML数据管理并不能满足当前的需要,采用关
随着面向对象技术和工具的发展和日益成熟,与结构化设计相比,面向对象系统设计显示了巨大的优越性。同时,传统的度量方法已经很难反映面向对象软件系统的基本特征,因此,需要
在财务管理信息化建设之初,各级预算单位按照自身的业务需求建设了相应的财务管理系统。随着财政信息化建设的不断深入,各种问题便暴露出来,其中最为突出的是这些系统之间由
度量是一种从现实或实验世界到数学世界的映射,通过这种映射人们可以更容易地理解实体的特性和实体间的关系。随着软件规模的逐渐增大,软件复杂性的不断提高,软件的所有类或
随着Web服务及BPEL的深入发展,人员参与业务流程的问题已逐步引起了人们的关注。同时随着WS-HumanTask及BPEL4People规范的发布及标准化,越来越多的传统BPEL执行引擎开始支持
Deep Web环境下存在大量可访问的Web数据库,由于Web数据库的异构性和自主性,对从各个Web数据库中抽取出的结果进行集成是一项很有挑战性的工作。这些异构的Web数据库之间存在
随着无线通讯技术和全球定位技术的快速发展,基于位置信息的服务(Location Based Service, LBS)受到广泛关注。它在民用和军用方面等诸多领域展现了广泛的应用前景。而支持LB
相交图是图中非常重要的有着广泛应用的图,相交图的应用背景涉及生物、矩阵分析、统计学、任务分配等多个领域,而正是由于其具有广泛应用背景使得它在最近二三十年间得到了迅速
一个通用且高效的优化设计计算平台能有效地缩短飞行器设计周期、降低成本。本文描述了一个基于多学科设计优化(Multidisciplinary design optimization)理念的分布式并行计
近年来,随着无线网络通信技术、全球定位技术(GPS)以及地理信息系统的发展和应用,大量具有定位功能的便携设备(如移动电话、车载GPS等)得以普及,使得跟踪并记录移动对象的位