论文部分内容阅读
在知识经济、大数据时代,随着科学技术的蓬勃发展和科研成果的大量涌现,如何从海量的科技文献环境中提供有效的科技监测服务,从而为科研管理部门、学术科研人员提供有效的科技知识支持,已经受到了广大学者的高度关注与重视。一方面,科技文献“量”呈指数级增长,成为一座巨大的知识宝库;另一方面,面对海量、快速增长的科学文献数据,从文献数据库中快速有效地提取知识信息的需求变得非常迫切。如何在海量信息环境下进行有效抓住科技发展的脉络,并及时地把握研究热点是科技文献领域面向科技监测研究的核心和关键问题。 目前,在面向科技监测的研究中,采用的研究对象主要是科技期刊和专利文献,所应用的方法主要是文献计量和社会网络分析。为了使科技监测研究的数据来源更加多样化,研究方法更加完善、研究结论更有说服力,需要应用各种科技文献载体,并不断突破现有的研究方法。 因此,本文在对现有研究进行系统地调查与综合分析基础上,提出有效的、基于科技文献三大载体形态的基于LDA主题模型的科技监测方法。通过挖掘科技文献中蕴含的科技知识,以期实现揭示科学研究主题的演进过程与脉络目的,把握科技发展动态,提升其科技创新价值。 首先,本文以科技文献中“主题”的建模为切入点,以科技报告载体形态为例进行主题分析,构建“文档—特征词—主题”三层拓扑结构的内容主题模型;其次,重点研究如何实现对海量科技文献的动态“主题”自动发现及其在时间序列上的“演化”脉络的科技监测内容,具体包括主题挖掘、主题强度衡量、主题数量的确定和主题演化方式等四个问题;再次,设计并构建了基于开源平台JGibbLDA的科技监测原型系统。 最后在相关主题模型研究的基础上,将相似度运算作为面向科技监测的主题模型方法应用的突破口,提出了科技报告相似度计算模型和基于用户兴趣的推荐模型,完善了面向科技监测的衍生应用研究。