论文部分内容阅读
学科交叉是科学进步的源泉,随着传统学科研究愈发成熟,通过学科交叉融合产生的研究突破也越来越多。传统学科不能覆盖的学科交叉点常常是学术突破点和重大问题产生之处。随着学科交叉研究越来越多,各学科间相互交叉渗透频繁,学科交叉文献日益增多,学科交叉方式朝着多样化、大跨度和深层次的方向发展。如何研究学科交叉现象,把握学科交叉发展方向,识别学科交叉点已成为一个关键问题。在海量的科技文献中发现学科交叉文献,并且识别学科交叉点和学科间潜在的共同研究主题,可以为相关研究者提供借鉴,具有广阔的应用前景。 本研究在总结学科交叉相关研究进展后提出如下要解决的问题:①如何发现某领域相关的学科交叉文献。②如何尝试引入更好的算法对学科交叉文献进行深层次的主题识别。本研究旨在基于海量的科技文献数据,提出一种某领域学科交叉主题识别的新视角,即通过引文分析测度文献学科交叉程度,进而发现某领域学科交叉文献,通过主题模型对学科交叉文献进行主题识别,进而发现领域学科交叉主题,最后对学科交叉主题进行可视化展示,从而更直观的把握学科交叉主题和主题间的关系。本研究主要工作如下:(1)国内外学科交叉和主题识别研究现状总结与评述。包括学科交叉研究、学科交叉文献发现以及共词分析和主题模型等主题识别的研究现状、基本理论以及主要方法,指出目前学科交叉主题识别研究仅关注期刊层面或两领域间的学科交叉主题识别,尚未拓展到某领域与其全部交叉领域的交叉主题的识别研究的不足,并提出将引文分析和主题模型应用于学科交叉文献发现和学科交叉文献主题识别研究中的可行性。(2)学科交叉主题识别的基础理论研究和方法体系构建。对基于引文分析的学科交叉测度指标进行系统的研究,并将Rao-Stirling指数用于领域学科交叉文献发现研究。对主题模型的基本理论与算法进行研究,并将LDA模型应用于学科交叉文献主题识别研究中,尝试将LDA模型主题识别结果进行可视化分析。(3)实证研究。以纳米科学与技术领域为例,基于MySQL和R进行领域文献题录信息的提取和文献学科交叉测度,基于python和德温特数据分析软件进行切词、去停用词以及词语归一化等数据处理,基于R进行LDA模型建模、模型主题识别效果评估和主题识别结果的可视化分析,并与K-means方法进行对比分析,验证方法的有效性。在整个研究过程中,主要采用了文献调研、文献计量、文本挖掘以及对比分析等方法。 本研究的主要成果(结论)为:(1)基于Rao-Stirling指数从引文的角度进行领域文献学科交叉测度可以有效地发现与某领域相关的学科交叉文献,且算法复杂度较低,有利于大数据集的学科交叉文献发现研究的实现。(2)基于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题,并且LDA模型基于概率生成模型可以识别词语间背后的语义关系,可以解决原有向量空间模型维度越大算法复杂度越高的局限性。(3)对主题识别结果进行可视化分析可以直观地展示领域学科交叉现状、学科交叉主题与词语的关系,以及主题与主题的关系。(4)通过对纳米科学与技术领域进行学科交叉主题识别研究发现,纳米科学与技术领域的学科交叉点主要包括纳米粒子抗菌活性、纳米材料毒性、癌症药物治疗、纳米生物材料、疾病治疗、血管机制、致病机制、细胞增殖与分化、中枢系统疾病、纳米检测、纳米生物医学、细菌/病毒入侵机理、生物相容性、纳米流体、纳米颗粒药代动力学、纳米粒子吸附与降解、纳米设备、放射疗法、纳米生化分析、细胞培养等。(5)本研究针对学科交叉文献发现和学科交叉主题识别研究所编写的程序同样适用于其他领域的学科交叉主题识别研究。 本研究创新点如下:将Rao-Stirling指数应用于某领域学科交叉文献发现研究,进而发现某领域学科交叉文献。将LDA模型应用于某领域学科交叉文献主题识别研究,进而发现某领域学科交叉主题。引文分析方法与主题识别方法的组合应用为发现领域的学科交叉主题提供了一种解决方案的新视角。