论文部分内容阅读
众所周知,在信息检索领域有两种基本的语言现象一直困扰着传统的词汇匹配方法,即同义和多义现象。同义现象影响查全率,多义现象影响查准率。针对这个问题,人们提出了潜在语义索引(LatentSemanticIndexing,即LSI)方法。它是一种概念检索方法,通过对索引项文档矩阵X进行奇异值分解(SingularValueDecomposition,即SVD),降维表示后的矩阵Xk表达了索引项与文档之间的潜在语义关系,剔除了因具体用词变化不定而带来的词汇噪声信息,从而大大提高查全率和查准率。大量的试验数据表明运用潜在语义索引进行信息检索的效果优于关键词匹配检索。
但是,针对大型词汇——文本矩阵的奇异值分解(SVD)需要巨大的成本,这将成为这一技术应用到可扩展的信息检索领域的一大障碍。
本文引进图论中的广度优先遍历(即层次搜索)方法,首先对原始词汇——文本矩阵进行预处理,以期减少LSI中奇异值分解的成本。根据每次的查询提问式,层次搜索技术可以从原始的词汇——文本矩阵中分解出一个更小的子集。随后,再对此子集进行潜在语义索引计算。由于使用了层次搜索过滤,计算结果的查全率、查准率都会有所提高。如果想进一步缩小子集的规模,我们还可以使用剪枝技术,即删除特定查询的子矩阵中仅与一个文本关联的词汇,从而进一步减少计算成本。对大多数文本集而言,剪枝平均会减少65%的非零词汇数,但同时,查准率也会相应下降5%。[2]
本文的创新之处是:将离散数学中的图论观点引入信息过滤领域,并与潜在语义索引技术组合,既节省了大量的计算成本,又达到很好的信息检索效果。同时,本文还对图论中的简单层次搜索技术进行探索,提出了加权层次搜索技术,加上剪枝处理,以达到更佳的检索效果。最后,本文通过一个中文样本实例验证了前面提出的理论,该算法不失为情报科学领域值得进一步开发和利用的技术方法,有一定的理论价值和广阔的应用前景。