论文部分内容阅读
对某个学科或科技领域的特定问题进行的研究,构成了该学科或科技领域的一个研究主题。通过分析该领域各研究主题之间的关系及其层次结构,有助于我们透过研究主题的演化状况把握科技发展规律,为制定下一步的研究方向以及预测未来可能发展趋势提供客观、准确的依据。同时,这些信息对科技政策制定者、基金资助机构和相关研究人员制定决策,也具有重要的参考价值。
主题研究主要解决3个问题:领域研究主要围绕哪些主题;这些主题有哪些变化;为什么会发生这些变化。为了更好地解决上述问题,本论文将离群数据挖掘方法引入到主题分析中,希望通过离群数据检测和分析来更加全面把握研究主题的变化趋势,探索主题演化过程,为主题演化研究提供一种科学的、客观的、先进的方法。具体而言主要包括如下4个方面的内容:(1)对国内外主题演化研究进展进行了评述,指出了研究中存在的不足,提出非等距离定长方法划分主题演化阶段的想法,同时将离群数据检测方法引入到主题研究中。(2)对各种离群数据检测方法进行综述,指出研究中存在的不足,重点对基于信息熵的离群数据检测方法的不足进行了改进。(3)从系统科学的角度分析阐明主题演化的动力机制,并运用信息熵方法定量描述主题演变过程,从而进一步认识和把握主题演化过程。(4)实证研究。首先,将基于信息熵的时间序列突变点检测方法应用到“流域水资源管理”和“信息整合”这两个主题领域文献集合,分别以关键词和特征词为分析对象,进行突变点识别,并以此为基础对这两个领域的主题演化阶段进行划分。其次,将基于信息熵的离群数据检测方法应用到“流域水资源管理”领域的主题研究特征项集合分析中,对文献和主题聚类簇进行分类。最后对“流域水资源管理”领域的主题演化过程进行分析。
论文研究的主要成果为:(1)针对具有时间属性的数据集合,基于离群数据会引起数据集合信息熵值增加的特性,提出了基于信息熵的时间序列突变点检测方法。(2)针对不具有时间属性的数据集合,利用信息熵来衡量一个数据集合中各个数据对象的不确定程度相对于总体的偏离程度,提出了度量数据集合中数据对象离群程度的方法。(3)基于关键词突变点有效地、合理地划分主题演化阶段。(4)将离群数据挖掘概念和理论引入到主题演化研究中更加准确地判断主题变化情况,全面地展示主题演化过程。
论文的主要创新点是:(1)将离群数据挖掘方法应用于主题演化研究,为主题演化研究提供了新思路;(2)基于信息熵的时间序列突变点识别方法;(3)基于信息熵的离群数据检测方法。