论文部分内容阅读
摘要:探测产业技术前沿,对国家抢占世界科学技术与产业发展的制高点具有重要的理论意义和现实意义。选择经过专家评审的、有培育价值的、代表未来产业发展方向的、正在美国能源部科学用户设施进行培育的项目数据,对先进科学计算研究计划培育的项目进行了产业技术前沿主体和产业技术前沿主题探测,揭示了高产的项目来源机构和前沿主题。与以往基于科学论文或专利文献的产业技术前沿探测研究相比较,选择美国科学用户设施正在培育项目统计数据探测产业技术前沿的研究,更具新颖性和聚焦性,既是补充计量学(Altmetrics)研究领域的一个尝试,又是对科学计量学理论和方法的丰富和发展。
关键词:产业技术前沿;科学用户设施;美国能源部;培育项目;前沿主题
中图分类号:G306;N18 文献标识码:A DOI:10.3969/j.issn.1003-8256.2018.05.003
0 引言
探测产业技术前沿,对国家抢占世界科学技术与产业发展的制高点,对科研机构部署科技人力资源和研发方向,具有重要的理论意义和现实意义。现有的基于数据分析探测产业技术前沿的研究成果,国内外学者多是采用科學论文数据或专利文献,在以往的产业技术前沿相关研究过程中,学者们主要采用了以下的方法和数据。第一,通过对科学论文进行分析,探测技术发展前沿或新兴技术:基于科学网(web of science)数据,用系统的方法设计检索策略,探索新兴技术[1];运用科学计量学叠加绘图方法获取新兴技术发展的战略情报[2];通过分析科学出版物数量增长、科学合作发展趋势和科研机构变化状况等定量数据结合定性分析,探测某一技术领域的前沿发展[3];对科学论文进行关键词分析和引文分析,探测新兴技术发展趋势[4]等。第二,对专利数据进行分析,测度和预测产业技术发展前沿:利用专利数据结合科学论文数据,预测新兴技术发展趋势[5];通过科学-技术-产业关联指标探测新兴技术的核心竞争力和未来产业化前景[6];选择专利数据中的技术关键词,预测产业技术发展前沿[7];通过专利分析的监督学习方法,预测新兴技术的发展趋势[8]等。此外,还有运用技术与经济分析相结合的方法,预测产业技术发展的前沿[9];借助定向距离函数方法回顾世界产业技术发展的前沿[10];采用技术路线图方法识别和描述产业技术前沿[11]等。
美国能源部(U.S. Department of Energy,简称DOE)官方网站提供的科学用户设施培育项目统计数据为我们探测产业技术前沿提供了一个新的视角。作为一个政府科学机构,美国能源部在美国经济创新发展中发挥着重要作用,将科学创新放在优先发展的地位,并将其视为美国经济繁荣的基石[12]。美国能源部科学办公室(DOE Office of Science,SC)通过科学用户设施计划(Scientific User Facility Program),推动美国走向世界科学与创新的最前沿。科学用户设施工程是联邦政府资助的、旨在推动科学技术进步发展的设施,科学用户设施对所有感兴趣的潜在用户开放,不论国籍和机构,科学用户设施为研究者提供现代科学发展最先进的工具,包括加速器、对撞机、超级计算机、光源设备和中子源等,和用于纳米世界、环境与大气研究的设施[13]。项目计划办公室(Program Office)负责设施的整个流程管理,从概念模型、设计、建设运营、终止甚至停运等[14]。核心项目计划办公室有六个:先进科学计算研究(Advanced Scientific Computing Research,ASCR),基础能源科学(Basic Energy Sciences,BES),生物与环境研究(Biological and Environmental Research,BER),聚变能科学(Fusion Energy Sciences,FES),高能物理(High Energy Physics,HEP),核物理(Nuclear Physics,NP)。与科学论文或专利文献相比较,DOE科学用户设施正在培育的项目,可能仅仅是一个概念(concept)或者想法(idea),也可能是一个正在研究中的科学问题,或者是一个已经完成的科学成果,总之用户设施培育项目的显著特征就是它们有培育的价值、有发展潜能、经过专家评审、被认为能够助力美国产业技术领先世界。
已有的研究成果是本研究的重要基础。本文将选择一个崭新的视角,即利用美国能源部科学用户设施培育项目的统计数据,进行产业技术前沿的探测研究。我们可以合理地推断:那些经过专家评审、被认为有培育价值、代表未来产业发展方向的、正在美国能源部科学用户设施进行培育的项目,它们应该更能够代表产业技术发展的前沿。
1 数据来源与研究方法
规范化的、及时更新的科学论文数据库与专利文献数据库,曾经为学者们进行产业技术前沿的探测研究提供了方便、可靠的数据来源。但随着科学技术突飞猛进的发展和网络信息技术的普及,传统的科技文献提供的科技情报信息已不能适应全球科学技术和产业飞速发展的需求,其中一个重要的不足之处就在于其比较严重的滞后性。以SCI论文为例,从投稿到评审到出版,常常需要经历一年半到两年甚至更长的时间周期;以专利文献为例,从专利申请文件的递交,到形式审查,再到实质审查,一直到最终的授权,也常常需要经历两年至三年的时间,甚至更长的四年至五年的时间。这样的出版周期,当读者读到这些科技文献的时候,它们基本上已经不再是前沿的科技成果了。
与以往的科学论文或专利文献数据相比较,本文选择的美国能源部科学用户设施培育项目数据,从时间上看更具有新颖性,可以仅仅是个概念或想法;从范围上看,更聚焦于培育有发展潜力的产业技术。因此,利用美国能源部科学用户设施培育项目的数据进行产业技术前沿的探测和分析,具有更强的学术价值和实践意义。
本研究数据来源于美国能源部官方网站[15]。我们选择2016年科学用户设施项目统计数据中的“先进科学计算研究”(Advanced Scientific Computing Research,简称ASCR)计划培育的全部11101个项目数据,对其进行产业技术前沿主体分布和产业技术前沿主题分布分析,以此识别先进科学计算领域的前沿领先机构和前沿热点主题。ASCR项目的使命是发现、发展和利用计算与网络能力分析、建模、模拟和预测对美国能源部能源产业技术发展重要的复杂现象[16]。这个计划的一个特别挑战是满足新兴计算系统和其他新颖计算架构的科学潜力,这将需要对当今的工具和技术进行大量的重大改进,以实现对百万兆级科学发展数据的顺畅传输。 产业技术前沿主体分布的分析,我们选择高产的“项目来源机构”和“项目培育的用户设施及其所属东道主机构”两项指标来进行分析。产业技术前沿主题的分布,我们选择荷兰莱顿大学科学技术研究中心(Centre for Science and Technology Studies,缩写为CWTS)科研人员Waltman与Van Eck共同开发的可视化软件VOSviewer进行。VOSviewer是一款主要应用于科学文献计量网络图谱绘制的软件工具,包括期刊网络、研究者网络等,可视化网络绘制的方法包括作者共被引分析、文献耦合分析、作者合作分析等具体方法。VOSviewer也可以应用于文本挖掘,通过从科学文献文本中提取重要主题词的方法,绘制主题词网络,从而实现其文本挖掘的功能。我们选择“关联强度”(association strength)算法来进行产业技术前沿主题分布的主题词可视化分析,见公式(1)。
其中SA(Cij, Si, Sj)表示项目i和项目j的相似度,Cij为项目i和j的共现频次,Si和Sj为项目i和j各自出现的频次。常见的计算共现矩阵的方法有Jaccard系数、Cosine系数等,但是Van Eck与Waltman通过大量的实证研究和比较分析[17, 18],认为总体来看存在着两种重要的相似性测度理论与方法,即集论测度(set-theoretic measures)和概率测度(probabilistic measures);Cosine、inclusion index和Jaccard三种都是集论测度方法,而关联强度(association strength)则属于概率测度方法;在科学计量学共现分析研究中,选择关联强度的测度指标比Jaccard和Cosine更合适。
2 产业技术前沿主体分布
我们选择美国能源部科学用户设施培育项目的来源机构,即“项目来源机构”和“项目培育的用户设施及其所属东道主机构”两项指标来进行产业技术前沿主体分布的分析。高产的项目来源机构,代表他们拥有“先进科学计算研究”领域强大的研究实力和全球领先技术水平,这些机构将是未来先进科学计算领域相关技术产业化的先行者与前驱者。表1列出了“先进科学计算研究”领域、美国能源部科学用户设施培育项目高于70项的“项目来源机构”。
项目来源机构的前三名全部是美国能源部所属的国家实验室。其中排在第一位的项目来源机构是劳伦斯伯克利国家实验室,共有855个项目,占总数的比例为7.70%;阿贡国家实验室有790个用户项目在ASCR计划中培育,占总数的7.12%,排在第二位;橡树岭国家实验室有707个用户项目在ASCR计划中培育,占总数的6.37%。来源于这三个实验室的用户项目分别都超过了700项,远远高于其他的来源机构。纵观表1中的26个高产来源机构,12个是国家实验室,11个是大学,1个是美国能源部的联合基因研究所,1个是英特尔公司,最后1个是美国国家大气研究中心。由此可见,先进科学计算计划培育的项目,主要来源于美国国家实验室和研究型大学。图1显示了培育ASCR计划项目的用户设施及其所属国家实验室。
培育ASCR研究计划项目的科学用户设施共有4个:其中“国家能源研究科学计算中心”该科学用户设施培育的项目数量最多,7205项,占总数比例为64.90%,该用户设施隶属于劳伦斯伯克利国家实验室;排在第二位的科学用户设施是“阿贡领先计算设施”,隶属于阿贡国家实验室,共培育了2090项,占总数比例为18.83%;排在第三位的科学用户设施是“橡树岭领先计算设施”,隶属于橡树岭国家实验室,共培育了1743个项目,占总数比例为15.70%;最后一个科学用户设施是“能源科学网络”,隶属于劳伦斯伯克利国家实验室,培育了63个项目,占比为0.57%。第一个科学用户设施“国家能源研究科学计算中心”和第四个科学用户设施“能源科学网络”,同隶属于劳伦斯伯克利国家实验室,共培育了7268个用户项目,占ASCR项目总数的65.47%。
3 产业技术前沿主题分布
我们选择“先进科学计算研究”计划培育的全部项目11101项的项目名称(Title),项目名称虽然字数不多,但其反映了项目的核心主题,是对一个项目的高度概括和凝练[19-21]。我们将所有项目名称汇总为一个文本体,采用VOSviewer软件分析工具,选择关联强度(association strength)算法,对该文本体的主题词(term)进行频次和可视化分析,绘制了图2“ASCR计划培育项目主题词图谱”。
图2显示,先进科学计算研究ASCR计划培育项目的主题分布状况:比较集中的、位于图谱中心位置的一些技术主题词,多为反映了应用领域或通用研究方法的主题词,比如模拟(simulation)、能源(energy)、超大规模(extreme scale)、可视化(visualization)、數据分析(data analysis)、终端站(end station)等;长长圆弧上的主题词,更多地揭示了先进科学计算研究ASCR计划培育项目的前沿热点,比如宇宙微波背景数据分析(cosmic microwave background data analysis)、下一代超级计算机体系结构(next generation supercomputer architecture)、大型地下氙暗物质实验(large underground xenon dark matter experiment,频次为86)、软硬件一体化设计(codesign)、重子振动分光镜勘测(baryon oscillation spectroscopic survey)、先进光源(advanced light source)、暗能量调查超新星搜索(dark energy survey supernova search)等。表2列出了ASCR计划培育项目的频次高于100次的高频主题词。 表2列出的以及其他頻次较高但限于篇幅没有在表中列出的高频主题词包括以下几类:第一类反映能源产业技术前沿的主题词,如:“宇宙微波背景数据分析”、“下一代超级计算机体系结构”、“大型地下氙暗物质实验”、“先进光源”等。以先进光源(Advanced Light Source,ALS)为例,它是劳伦斯伯克利国家实验室的一个科学用户设施项目,是世界上最强的紫外线光和软X光提供者,在能源技术领域首创了第三代同步加速器光源,为来自全世界的科学研究者的科学实验提供最强的光源和连续的短波光源;第二类是反映了通用方法的主题词,如:“仿真”、“数据分析”等,这些方法广泛应用于先进科学计算研究领域;第三类是代表应用领域的主题词,比如“能源”等。美国能源部科学用户设施培育的先进科学计算研究计划项目,未来将主要应用于能源技术的发展等。
4 结论与启示
本文基于美国能源部科学用户设施培育项目的统计数据,以2016年“先进科学计算研究”(ASCR)计划培育的全部11101个项目为实证分析对象,运用数据统计和信息可视化技术,对先进科学计算研究计划培育项目的产业技术前沿主体和产业技术前沿主题进行了分析,得到如下主要结论:高产的项目来源机构主要是美国国家实验室和大学,其中项目来源机构的前三名全部是美国能源部所属的国家实验室。培育ASCR研究计划项目最多的国家实验室是劳伦斯伯克利国家实验室,共培育了7268个用户项目,占ASCR项目总数的65.47%;培育ASCR研究计划项目最多的科学用户设施是“国家能源研究科学计算中心”,这个科学用户设施共培育了7205个项目,占总数比例为64.90%,该科学用户设施隶属于劳伦斯伯克利国家实验室。产业技术前沿主题分析的结果揭示了先进科学计算研究领域通用的研究方法和ASCR计划培育项目的前沿热点,比如宇宙微波背景数据分析、下一代超级计算机体系结构、大型地下氙暗物质实验、软硬件一体化设计、重子振动分光镜勘测和先进光源和暗能量调查超新星搜索等。
本研究的创新之处在于:与以往的利用《科学引文索引》数据库SCI科学论文数据与《德温特创新索引》数据库的DII专利数据进行产业技术前沿分析与预测的研究不同,我们选择了一个全新的视角,利用美国能源部科学用户设施培育项目的统计数据,进行产业技术前沿的探测研究。由于科学论文和专利文献发表周期较长,用这些数据进行技术预测研究时,研究结果会因时滞受到较大影响,面对这样的结果,有时我们很难将其视为未来产业技术发展的前沿。现在我们基于美国能源部科学用户设施正在培育的项目数据,这些项目可能来源于一个想法,或者仅仅是一个概念,或正在进行的科学研究活动;更重要的是,这些项目是经过专家评定后,被认为是有培育价值和潜力的、将代表未来产业技术发展方向的项目。基于这样的项目数据做产业技术前沿分析,具有以下明显的优势:一是从时间角度看,更新颖和及时;二是从范围角度看,更聚焦于那些有发展和培育潜力的项目,而不像科学论文或专利数据那么宽泛。从理论与方法视角,本研究可以算是补充计量学(Altmetrics)领域的一个尝试,是对科学计量学理论和方法的发展。
参考文献:
[1] Huang Y, Schuehle J, Porter AL et al. A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for ’Big Data’[J]. Scientometrics, 2015,105(3): 2005-2022.
[2] Rotolo D, Rafols I, Hopkins MM et al. Strategic Intelligence on Emerging Technologies: Scientometric Overlay Mapping[J]. Journal of the Association for Information Science and Technology,2017, 68(1): 214-233.
[3] Beumer K, Bhattacharya S. Emerging technologies in India: Developments, debates and silences about nanotechnology[J]. Science and Public Policy,2013, 40(5): 628-643.
[4] Cozzens S, Gatchair S, Kang J et al. Emerging technologies: quantitative identification and measurement[J]. Technology Analysis
关键词:产业技术前沿;科学用户设施;美国能源部;培育项目;前沿主题
中图分类号:G306;N18 文献标识码:A DOI:10.3969/j.issn.1003-8256.2018.05.003
0 引言
探测产业技术前沿,对国家抢占世界科学技术与产业发展的制高点,对科研机构部署科技人力资源和研发方向,具有重要的理论意义和现实意义。现有的基于数据分析探测产业技术前沿的研究成果,国内外学者多是采用科學论文数据或专利文献,在以往的产业技术前沿相关研究过程中,学者们主要采用了以下的方法和数据。第一,通过对科学论文进行分析,探测技术发展前沿或新兴技术:基于科学网(web of science)数据,用系统的方法设计检索策略,探索新兴技术[1];运用科学计量学叠加绘图方法获取新兴技术发展的战略情报[2];通过分析科学出版物数量增长、科学合作发展趋势和科研机构变化状况等定量数据结合定性分析,探测某一技术领域的前沿发展[3];对科学论文进行关键词分析和引文分析,探测新兴技术发展趋势[4]等。第二,对专利数据进行分析,测度和预测产业技术发展前沿:利用专利数据结合科学论文数据,预测新兴技术发展趋势[5];通过科学-技术-产业关联指标探测新兴技术的核心竞争力和未来产业化前景[6];选择专利数据中的技术关键词,预测产业技术发展前沿[7];通过专利分析的监督学习方法,预测新兴技术的发展趋势[8]等。此外,还有运用技术与经济分析相结合的方法,预测产业技术发展的前沿[9];借助定向距离函数方法回顾世界产业技术发展的前沿[10];采用技术路线图方法识别和描述产业技术前沿[11]等。
美国能源部(U.S. Department of Energy,简称DOE)官方网站提供的科学用户设施培育项目统计数据为我们探测产业技术前沿提供了一个新的视角。作为一个政府科学机构,美国能源部在美国经济创新发展中发挥着重要作用,将科学创新放在优先发展的地位,并将其视为美国经济繁荣的基石[12]。美国能源部科学办公室(DOE Office of Science,SC)通过科学用户设施计划(Scientific User Facility Program),推动美国走向世界科学与创新的最前沿。科学用户设施工程是联邦政府资助的、旨在推动科学技术进步发展的设施,科学用户设施对所有感兴趣的潜在用户开放,不论国籍和机构,科学用户设施为研究者提供现代科学发展最先进的工具,包括加速器、对撞机、超级计算机、光源设备和中子源等,和用于纳米世界、环境与大气研究的设施[13]。项目计划办公室(Program Office)负责设施的整个流程管理,从概念模型、设计、建设运营、终止甚至停运等[14]。核心项目计划办公室有六个:先进科学计算研究(Advanced Scientific Computing Research,ASCR),基础能源科学(Basic Energy Sciences,BES),生物与环境研究(Biological and Environmental Research,BER),聚变能科学(Fusion Energy Sciences,FES),高能物理(High Energy Physics,HEP),核物理(Nuclear Physics,NP)。与科学论文或专利文献相比较,DOE科学用户设施正在培育的项目,可能仅仅是一个概念(concept)或者想法(idea),也可能是一个正在研究中的科学问题,或者是一个已经完成的科学成果,总之用户设施培育项目的显著特征就是它们有培育的价值、有发展潜能、经过专家评审、被认为能够助力美国产业技术领先世界。
已有的研究成果是本研究的重要基础。本文将选择一个崭新的视角,即利用美国能源部科学用户设施培育项目的统计数据,进行产业技术前沿的探测研究。我们可以合理地推断:那些经过专家评审、被认为有培育价值、代表未来产业发展方向的、正在美国能源部科学用户设施进行培育的项目,它们应该更能够代表产业技术发展的前沿。
1 数据来源与研究方法
规范化的、及时更新的科学论文数据库与专利文献数据库,曾经为学者们进行产业技术前沿的探测研究提供了方便、可靠的数据来源。但随着科学技术突飞猛进的发展和网络信息技术的普及,传统的科技文献提供的科技情报信息已不能适应全球科学技术和产业飞速发展的需求,其中一个重要的不足之处就在于其比较严重的滞后性。以SCI论文为例,从投稿到评审到出版,常常需要经历一年半到两年甚至更长的时间周期;以专利文献为例,从专利申请文件的递交,到形式审查,再到实质审查,一直到最终的授权,也常常需要经历两年至三年的时间,甚至更长的四年至五年的时间。这样的出版周期,当读者读到这些科技文献的时候,它们基本上已经不再是前沿的科技成果了。
与以往的科学论文或专利文献数据相比较,本文选择的美国能源部科学用户设施培育项目数据,从时间上看更具有新颖性,可以仅仅是个概念或想法;从范围上看,更聚焦于培育有发展潜力的产业技术。因此,利用美国能源部科学用户设施培育项目的数据进行产业技术前沿的探测和分析,具有更强的学术价值和实践意义。
本研究数据来源于美国能源部官方网站[15]。我们选择2016年科学用户设施项目统计数据中的“先进科学计算研究”(Advanced Scientific Computing Research,简称ASCR)计划培育的全部11101个项目数据,对其进行产业技术前沿主体分布和产业技术前沿主题分布分析,以此识别先进科学计算领域的前沿领先机构和前沿热点主题。ASCR项目的使命是发现、发展和利用计算与网络能力分析、建模、模拟和预测对美国能源部能源产业技术发展重要的复杂现象[16]。这个计划的一个特别挑战是满足新兴计算系统和其他新颖计算架构的科学潜力,这将需要对当今的工具和技术进行大量的重大改进,以实现对百万兆级科学发展数据的顺畅传输。 产业技术前沿主体分布的分析,我们选择高产的“项目来源机构”和“项目培育的用户设施及其所属东道主机构”两项指标来进行分析。产业技术前沿主题的分布,我们选择荷兰莱顿大学科学技术研究中心(Centre for Science and Technology Studies,缩写为CWTS)科研人员Waltman与Van Eck共同开发的可视化软件VOSviewer进行。VOSviewer是一款主要应用于科学文献计量网络图谱绘制的软件工具,包括期刊网络、研究者网络等,可视化网络绘制的方法包括作者共被引分析、文献耦合分析、作者合作分析等具体方法。VOSviewer也可以应用于文本挖掘,通过从科学文献文本中提取重要主题词的方法,绘制主题词网络,从而实现其文本挖掘的功能。我们选择“关联强度”(association strength)算法来进行产业技术前沿主题分布的主题词可视化分析,见公式(1)。
其中SA(Cij, Si, Sj)表示项目i和项目j的相似度,Cij为项目i和j的共现频次,Si和Sj为项目i和j各自出现的频次。常见的计算共现矩阵的方法有Jaccard系数、Cosine系数等,但是Van Eck与Waltman通过大量的实证研究和比较分析[17, 18],认为总体来看存在着两种重要的相似性测度理论与方法,即集论测度(set-theoretic measures)和概率测度(probabilistic measures);Cosine、inclusion index和Jaccard三种都是集论测度方法,而关联强度(association strength)则属于概率测度方法;在科学计量学共现分析研究中,选择关联强度的测度指标比Jaccard和Cosine更合适。
2 产业技术前沿主体分布
我们选择美国能源部科学用户设施培育项目的来源机构,即“项目来源机构”和“项目培育的用户设施及其所属东道主机构”两项指标来进行产业技术前沿主体分布的分析。高产的项目来源机构,代表他们拥有“先进科学计算研究”领域强大的研究实力和全球领先技术水平,这些机构将是未来先进科学计算领域相关技术产业化的先行者与前驱者。表1列出了“先进科学计算研究”领域、美国能源部科学用户设施培育项目高于70项的“项目来源机构”。
项目来源机构的前三名全部是美国能源部所属的国家实验室。其中排在第一位的项目来源机构是劳伦斯伯克利国家实验室,共有855个项目,占总数的比例为7.70%;阿贡国家实验室有790个用户项目在ASCR计划中培育,占总数的7.12%,排在第二位;橡树岭国家实验室有707个用户项目在ASCR计划中培育,占总数的6.37%。来源于这三个实验室的用户项目分别都超过了700项,远远高于其他的来源机构。纵观表1中的26个高产来源机构,12个是国家实验室,11个是大学,1个是美国能源部的联合基因研究所,1个是英特尔公司,最后1个是美国国家大气研究中心。由此可见,先进科学计算计划培育的项目,主要来源于美国国家实验室和研究型大学。图1显示了培育ASCR计划项目的用户设施及其所属国家实验室。
培育ASCR研究计划项目的科学用户设施共有4个:其中“国家能源研究科学计算中心”该科学用户设施培育的项目数量最多,7205项,占总数比例为64.90%,该用户设施隶属于劳伦斯伯克利国家实验室;排在第二位的科学用户设施是“阿贡领先计算设施”,隶属于阿贡国家实验室,共培育了2090项,占总数比例为18.83%;排在第三位的科学用户设施是“橡树岭领先计算设施”,隶属于橡树岭国家实验室,共培育了1743个项目,占总数比例为15.70%;最后一个科学用户设施是“能源科学网络”,隶属于劳伦斯伯克利国家实验室,培育了63个项目,占比为0.57%。第一个科学用户设施“国家能源研究科学计算中心”和第四个科学用户设施“能源科学网络”,同隶属于劳伦斯伯克利国家实验室,共培育了7268个用户项目,占ASCR项目总数的65.47%。
3 产业技术前沿主题分布
我们选择“先进科学计算研究”计划培育的全部项目11101项的项目名称(Title),项目名称虽然字数不多,但其反映了项目的核心主题,是对一个项目的高度概括和凝练[19-21]。我们将所有项目名称汇总为一个文本体,采用VOSviewer软件分析工具,选择关联强度(association strength)算法,对该文本体的主题词(term)进行频次和可视化分析,绘制了图2“ASCR计划培育项目主题词图谱”。
图2显示,先进科学计算研究ASCR计划培育项目的主题分布状况:比较集中的、位于图谱中心位置的一些技术主题词,多为反映了应用领域或通用研究方法的主题词,比如模拟(simulation)、能源(energy)、超大规模(extreme scale)、可视化(visualization)、數据分析(data analysis)、终端站(end station)等;长长圆弧上的主题词,更多地揭示了先进科学计算研究ASCR计划培育项目的前沿热点,比如宇宙微波背景数据分析(cosmic microwave background data analysis)、下一代超级计算机体系结构(next generation supercomputer architecture)、大型地下氙暗物质实验(large underground xenon dark matter experiment,频次为86)、软硬件一体化设计(codesign)、重子振动分光镜勘测(baryon oscillation spectroscopic survey)、先进光源(advanced light source)、暗能量调查超新星搜索(dark energy survey supernova search)等。表2列出了ASCR计划培育项目的频次高于100次的高频主题词。 表2列出的以及其他頻次较高但限于篇幅没有在表中列出的高频主题词包括以下几类:第一类反映能源产业技术前沿的主题词,如:“宇宙微波背景数据分析”、“下一代超级计算机体系结构”、“大型地下氙暗物质实验”、“先进光源”等。以先进光源(Advanced Light Source,ALS)为例,它是劳伦斯伯克利国家实验室的一个科学用户设施项目,是世界上最强的紫外线光和软X光提供者,在能源技术领域首创了第三代同步加速器光源,为来自全世界的科学研究者的科学实验提供最强的光源和连续的短波光源;第二类是反映了通用方法的主题词,如:“仿真”、“数据分析”等,这些方法广泛应用于先进科学计算研究领域;第三类是代表应用领域的主题词,比如“能源”等。美国能源部科学用户设施培育的先进科学计算研究计划项目,未来将主要应用于能源技术的发展等。
4 结论与启示
本文基于美国能源部科学用户设施培育项目的统计数据,以2016年“先进科学计算研究”(ASCR)计划培育的全部11101个项目为实证分析对象,运用数据统计和信息可视化技术,对先进科学计算研究计划培育项目的产业技术前沿主体和产业技术前沿主题进行了分析,得到如下主要结论:高产的项目来源机构主要是美国国家实验室和大学,其中项目来源机构的前三名全部是美国能源部所属的国家实验室。培育ASCR研究计划项目最多的国家实验室是劳伦斯伯克利国家实验室,共培育了7268个用户项目,占ASCR项目总数的65.47%;培育ASCR研究计划项目最多的科学用户设施是“国家能源研究科学计算中心”,这个科学用户设施共培育了7205个项目,占总数比例为64.90%,该科学用户设施隶属于劳伦斯伯克利国家实验室。产业技术前沿主题分析的结果揭示了先进科学计算研究领域通用的研究方法和ASCR计划培育项目的前沿热点,比如宇宙微波背景数据分析、下一代超级计算机体系结构、大型地下氙暗物质实验、软硬件一体化设计、重子振动分光镜勘测和先进光源和暗能量调查超新星搜索等。
本研究的创新之处在于:与以往的利用《科学引文索引》数据库SCI科学论文数据与《德温特创新索引》数据库的DII专利数据进行产业技术前沿分析与预测的研究不同,我们选择了一个全新的视角,利用美国能源部科学用户设施培育项目的统计数据,进行产业技术前沿的探测研究。由于科学论文和专利文献发表周期较长,用这些数据进行技术预测研究时,研究结果会因时滞受到较大影响,面对这样的结果,有时我们很难将其视为未来产业技术发展的前沿。现在我们基于美国能源部科学用户设施正在培育的项目数据,这些项目可能来源于一个想法,或者仅仅是一个概念,或正在进行的科学研究活动;更重要的是,这些项目是经过专家评定后,被认为是有培育价值和潜力的、将代表未来产业技术发展方向的项目。基于这样的项目数据做产业技术前沿分析,具有以下明显的优势:一是从时间角度看,更新颖和及时;二是从范围角度看,更聚焦于那些有发展和培育潜力的项目,而不像科学论文或专利数据那么宽泛。从理论与方法视角,本研究可以算是补充计量学(Altmetrics)领域的一个尝试,是对科学计量学理论和方法的发展。
参考文献:
[1] Huang Y, Schuehle J, Porter AL et al. A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for ’Big Data’[J]. Scientometrics, 2015,105(3): 2005-2022.
[2] Rotolo D, Rafols I, Hopkins MM et al. Strategic Intelligence on Emerging Technologies: Scientometric Overlay Mapping[J]. Journal of the Association for Information Science and Technology,2017, 68(1): 214-233.
[3] Beumer K, Bhattacharya S. Emerging technologies in India: Developments, debates and silences about nanotechnology[J]. Science and Public Policy,2013, 40(5): 628-643.
[4] Cozzens S, Gatchair S, Kang J et al. Emerging technologies: quantitative identification and measurement[J]. Technology Analysis