论文部分内容阅读
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间的层次关系。概念作为人的思想和知识的基本单元,一直以来,深受哲学界和科学界的重视,很自然地,也就成为了人工智能学科的重要研究对象,这主要体现在知识表示和机器学习等领域。将概念格理论和其他理论,如粗糙集理论、语义本体理论和文本特征提取方法结合起来,并将它们应用到基于语义的协作信息检索中,能更好的提取出概念之间的本质联系。在分布式环境下,使用FCA理论和技术进行协作信息检索,这可大大提高检索时间和效率。本文主要是基于概念格和相关理论知识来解决语义信息检索问题。主要研究工作包括:
⑴结合人类语言中普遍存在的Zipf定律,对大量文本集进行局部和全局的特征提取。根据文本各个特征自身和类别信息的统计特性,提取更少的特征来尽可能的表达出文本蕴含的信息,得到一种有效的文本特征提取方法,其中也对文本特征进行约简从而得到少而精的特征信息。
⑵基于概念格的数学理论基础,结合粗糙集理论和语义本体理论,提出了一个形式概念相似度计算方法,改进了基本Tversky相似度模型。从形式概念的结构相似和语义相似两个层次上衡量概念间的相似度,并将两者结合起来构成最终的形式概念相似度衡量方法以尽可能地体现形式概念的真实相似度。
⑶针对分布式环境,提出并构建一个协作信息检索框架,实现从结构和语义两个层次上的概念匹配,获得更符合用户需求的检索结果。
⑷在对检索结果排序过程中,利用语义本体WordNet对用户历史检索记录进行分析,从而构建用户兴趣模型,以便更精确的表达出用户兴趣所在,并按照此模型对初始检索结果重新排序。