论文部分内容阅读
本文基于文献的描述计量、文本挖掘等定性定量分析技术,针对我国统计学领域的高水平研究文献,分析统计学领域的研究现状、研究热点,进而从整体描绘我国统计学领域的理论方法及应用领域的研究态势,为后续的研究者能够准确把握统计学领域最新的发展动向提供参考。文中首先利用python爬虫技术获取统计学领域2016年至2018年的高水平文献4605篇。其中博硕士论文2607篇;国内统计学领域影响因子大于1的北大核心期刊《统计研究》和《数理统计与管理》中刊载的文献802篇;在Web of Science数据库中,中国学者发表在国外的被SCI收录的影响因子大于1的统计学领域中的期刊中的外文文献1196篇。然后对文献数据进行预处理。包括删除缺失关键词和摘要的文献;删除与统计学研究无关的文献;文献数据中的英文统一为小写;语义相同的关键词统一化以及文献摘要的分词。其次运用文献的描述计量方法对文献数据进行描述分析,得到我国统计学领域的研究现状:中文文献数量递减,英文文献数量递增;高校是统计学研究的主力军;期刊文献的引用率远高于学位论文等。接着运用共词分析方法以年为时间节点对文献关键词进行了聚类分析,得到国内统计学领域近三年的主要研究内容涉及经济、民生、大数据、统计方法研究和数据处理。展现了统计学中的方法的结合使用情况,以及研究内容的变化情况。同时将国内外发表的文献进行对比分析,可以发现外文文献更加侧重于理论研究,中文文献更加注重实际应用。最后运用LDA主题模型,以文献摘要为分析对象,对统计学领域研究热点进行识别和分析,发现统计学领域研究的十二个热点问题。对比中文期刊文献和外文期刊文献研究热点,发现中文文献以经济发展和民生问题为主要的研究方向,英文文献以社会问题和环境问题为主要的研究内容。以年为时间节点展示了我国统计学领域近三年的研究热点的变化情况。