基于层次搜索的信息过滤和检索方法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:qncy1239o
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,在信息检索领域有两种基本的语言现象一直困扰着传统的词汇匹配方法,即同义和多义现象。同义现象影响查全率,多义现象影响查准率。针对这个问题,人们提出了潜在语义索引(LatentSemanticIndexing,即LSI)方法。它是一种概念检索方法,通过对索引项文档矩阵X进行奇异值分解(SingularValueDecomposition,即SVD),降维表示后的矩阵Xk表达了索引项与文档之间的潜在语义关系,剔除了因具体用词变化不定而带来的词汇噪声信息,从而大大提高查全率和查准率。大量的试验数据表明运用潜在语义索引进行信息检索的效果优于关键词匹配检索。 但是,针对大型词汇——文本矩阵的奇异值分解(SVD)需要巨大的成本,这将成为这一技术应用到可扩展的信息检索领域的一大障碍。 本文引进图论中的广度优先遍历(即层次搜索)方法,首先对原始词汇——文本矩阵进行预处理,以期减少LSI中奇异值分解的成本。根据每次的查询提问式,层次搜索技术可以从原始的词汇——文本矩阵中分解出一个更小的子集。随后,再对此子集进行潜在语义索引计算。由于使用了层次搜索过滤,计算结果的查全率、查准率都会有所提高。如果想进一步缩小子集的规模,我们还可以使用剪枝技术,即删除特定查询的子矩阵中仅与一个文本关联的词汇,从而进一步减少计算成本。对大多数文本集而言,剪枝平均会减少65%的非零词汇数,但同时,查准率也会相应下降5%。[2] 本文的创新之处是:将离散数学中的图论观点引入信息过滤领域,并与潜在语义索引技术组合,既节省了大量的计算成本,又达到很好的信息检索效果。同时,本文还对图论中的简单层次搜索技术进行探索,提出了加权层次搜索技术,加上剪枝处理,以达到更佳的检索效果。最后,本文通过一个中文样本实例验证了前面提出的理论,该算法不失为情报科学领域值得进一步开发和利用的技术方法,有一定的理论价值和广阔的应用前景。
其他文献
楼兰,西域古国之一,何时建国,不得而知.史籍所载“楼兰……当空(孔)道”,扼丝绸之路要冲.故址在今新疆罗布泊西岸.西汉元凤四年(前77年),汉将霍光派傅介子杀楼兰王安归,并更
期刊
目的:  (1)分析临床康复患者的住院费用构成及影响因素并评价住院费用效果;  (2)分析临床康复患者及家属对住院费用的主观感受;  (3)探讨临床康复住院费用控制策略,为提
本文以国际合著论文为分析对象,通过与日本、印度进行多角度对比,分析了中国国际科技合作主导地位的变化和影响力。通过文献调研和探索,建立了一套基于国际合著论文分析国际科技
  机构存储库是大学智力产出的数字收藏库,包括大学里的所有学术性的智力产出。它集聚、保存了大学研究人员生成的知识,并且使这些知识可为他人所获取。一个机构存储库可以是
西安是丝绸之路的起点城市,也是中国历史上作为古都最多的城市.我们研究问题,如果仅仅局限在长城南北,有一些事是说不清楚的,现将研究范围进行拓展,向北向西追溯其中的脉络,
期刊
运用文献资料等研究方法,依据我国免费师范生教育新要求与我国基础教育未来体育师资素质需求,以体育教育专业排球普修课程为对象,从研究型教学概念入手,探讨了体育教育专业免
网络信息的海量化正在导致网络信息的垃圾化,网络信息本身的价值正在被创造海量网络信息的网络本身所消减,解决了信息资源的短缺问题并不一定会带来价值的提升,只有加强网络
  本文旨在探讨用户对服务质量的评价与用户价值感、用户满意度和用户忠诚度的关系,并分析经用户重要性加权的服务质量各方面对用户满意度和忠诚度的影响程度。  本文利用
论文因存在某种错误成为撤销论文,学术环境下撤销论文数量不断增加,已引起学术界的广泛关注。当前撤销论文的研究一直以论文的撤销原因为主要研究对象,对学术影响的研究还处在探
1组织管理扎实得力1.1领导重视,形成合力学校制定了体育工作3年发展规划。校长坚持主管体育工作,积极贯彻《学校体育工作条例》,落实健康第一思想。同时我们抓好上级文件和《条例