论文部分内容阅读
随着科学技术尤其是网络的迅速发展,产生了大量的信息,用传统的手工标引方法费时费力且主观性较强,已不能满足需求,这时就迫切的需要对大量信息进行自动标引。在检索系统中,标引处于承上启下的地位。标引是给出能反映文献特征的表示过程,是所有文件自动处理的基础与核心技术。 本文通过对短语提取、短语过滤、短语权重计算、短语相似度计算、主题词提取等方面的研究,提出了基于关键短语的自动主题词标引方法。首先,利用哈希结构统计短语、利用规则过滤垃圾串,提取出比较合理的短语;其次,综合考虑短语的位置信息、长度信息、词性信息、短语频率信息,提出短语权重计算改进方法,并通过实验验证这种权重计算方法的有效性:然后,再根据短语的语义信息、短语长度信息、短语文字重复度、词性信息,提出一种多特征融合的方法计算短语的相似度,并通过实验验证了该方法的有效性;最后,分析识别短语的等同关系、等级关系和相关关系构建主题词表。 本文在以上几点研究的基础之上,总结出了基于关键短语的自动主题词标引的全过程,并对自动标引未来进行了展望。