基于Web的文本信息检索算法的研究

来源 :东北电力大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长,如何帮助用户高效准确地从这些海量信息中获取有用的信息是当前迫切需要解决的问题。因此,Web文本信息检索成为目前备受关注的一个热门研究课题。文本信息检索是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。 首先,本文介绍了信息检索的发展概况和相关技术,以及信息检索的定义,研究了信息检索的三个基本模型(布尔模型,向量空间模型,概率模型)和信息检索的算法(基于内容的检索算法,基于内容和链接分析的融合的检索算法,基于分类和内容的融合检索算法)。并对能提高检索性能的Web文本预处理技术进行了深入剖析。 其次,本文研究了传统的向量空间模型,并针对传统的向量空间模型的查全及查准率不高等问题,提出了一种分解的向量空间模型。 最后,本文为了对改进的算法模型进行评测,搭建了一个基于传统的向量空间模型的信息检索系统和一个基于分解的向量空间模型的信息检索系统。对这两个系统进行评测,结果表明该改进的模型在查全率和查准率都有很大提高。
其他文献
P2P(Peer-to-Peer)技术具有分布式的特性并且能够充分利用资源,这使得基于其上的应用得到了快速的发展。但是,由于P2P网络缺乏集中控制,使得P2P网络的安全成为一个突出的问题
Internet的许多应用都需要建立和管理一个会话,会话在这里的含义是在参与者之间的数据的交换。由于考虑到参与者的实际情况,这些应用的实现往往是很复杂的:参与者可能是在代理间
传统工作流管理系统的设计从提供功能齐全的工作流服务角度出发,不可避免地导致了系统架构极为庞大,系统的复杂性也随着增大。同时传统的工作流管理系统提供的功能是以集成的方
当前主流P2P网络存在着可扩展性不高,效率低下以及对电信主干网负载太大等问题,已经严重阻碍了P2P的应用和发展。目前最新的技术是基于DHT的结构化的定位模型,这种技术在一定程
随着模式识别、人工智能和机器学习等领域研究的不断深入,传统的基于模式特征向量和距离、类似度等测量的统计分类和识别方法已经不能有效解决一些复杂问题的分类和识别。研究
目前,在医疗行业中,较普遍使用的理疗设备都采用的是单机操作模式,一台控制器独立控制一台理疗设备,给医院医护人员的使用带来不便。根据开发公司的要求,开发设计既能够具备联网能
目前为止电脑围棋仍是人工智能领域中的一大难题,虽然人们不断的研究,但电脑围棋的水平仍然很低,甚至还达不到低段位职业棋手的水平。围棋是同类游戏中最有挑战性的。因此电脑围
随着嵌入式系统、IP网和移动网3G/4G的技术发展,基于嵌入式系统的电子商务将成为我们日常生活的重要组成部分,具有巨大的产业前景。目前,基于嵌入式系统的电子商务技术还刚处于
随着互联网的迅速普及和相关技术的快速发展,互联网在人们的工作和生活过程中占据着越来越重要的位置,同时网络安全问题也变得越来越严重,网络安全事件的爆发频率逐年上升,其
网格计算就是指通过高速网络把分散在各处的硬件、软件、信息资源连接成一个巨大的整体,从而使得人们能够利用地理上分散于各处的资源,完成各种大规模的、复杂的计算和数据处理