论文部分内容阅读
基于概念的信息检索是当前智能信息检索研究的重点,而概念的表示与组织则是概念检索中的主要问题。本文针对概念表示,提出了概念的对象网络模型,该模型以一个对象的观点来认识概念的内涵,把概念看成是一个具有属性、行为、概念描述、概念词的复杂对象体。概念与概念之间再通过结构关系、语义关系而构成一个复杂的概念网络。通过这个网络,知识之间便构建了一种“联想的脉络,推理的依据”。 针对概念网的实现,本文根据概念的对象特性,给出了通过ORDBMS中的对象类型来实现概念网的方法。在此,概念网被表示为:“概念内部对象”、“概念关系对象”和“概念实例对象”三种数据类型.从而有效的完成了对概念的封装。同时,为了帮助人们组织构建与管理概念网,本文还给出了一个概念基本管理的模型系统。 为了帮助人们构建概念网,本文给出了一个由文本集到特征概念集,再到概念网的实现方法。针对该方法的具体实现,本文给出基于数据管理系统的分词程序的具体实现,并针对分词算法中新词的处理、歧义的切分等问题给出了一个自学习的分词系统的设计方法。对分词的结果再进行综合加权处理,最终得到文档的特征概念集。 针对概念网的应用,本文粗略的讨论了基于概念网的信息检索笺略。针对当前基于VSM中类别特征向量巨大、表达特征不明显的缺点,本文还提出了根据概念网将特征向量由术语空间转换到概念空间的方法。在此基础上,它通过对概念进行类内和类间的统计分析,得到类别的特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。