论文部分内容阅读
随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长,如何帮助用户高效准确地从这些海量信息中获取有用的信息是当前迫切需要解决的问题。因此,Web文本信息检索成为目前备受关注的一个热门研究课题。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。
首先,本文介绍了信息检索的发展概况和相关技术,以及信息检索的定义,研究了信息检索的三个基本模型(布尔模型,向量空间模型,概率模型)和信息检索的算法(基于内容的检索算法,基于内容和链接分析的融合的检索算法,基于分类和内容的融合检索算法)。并对能提高检索性能的Web文本预处理技术进行了深入剖析。
其次,本文研究了传统的向量空间模型,并针对传统的向量空间模型的查全及查准率不高等问题,提出了一种分解的向量空间模型。
最后,本文为了对改进的算法模型进行评测,搭建了一个基于传统的向量空间模型的信息检索系统和一个基于分解的向量空间模型的信息检索系统。对这两个系统进行评测,结果表明该改进的模型在查全率和查准率都有很大提高。