Web挖掘及其在网络搜索引擎中的应用研究

被引量 : 0次 | 上传用户:weilijay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,Internet已成为当今世界上最大的信息库,也是全球范围内信息传播的重要渠道。由于Web本身的庞大性、动态性、异构性和半结构化等特点,导致了Web信息搜索的困难。目前人们从这些海量数据中查找有用信息,使用最多的就是网络搜索引擎,然而当前搜索引擎的检索效果很难使用户满意。作为知识挖掘中新的研究内容Web挖掘,由于其在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大的借鉴作用,所以通过应用Web挖掘技术,可以改善搜索引擎的检索性能。查准率是搜索引擎检索性能评价体系中的重要指标,它的高低直接影响用户对搜索引擎的满意度。课题旨在研究Web挖掘技术,并将其应用到搜索引擎中,找到提高搜索引擎查准率的方法。探讨了网络搜索引擎和Web挖掘的相关技术,重点研究了Web结构挖掘算法,分析了目前应用广泛的PageRank算法存在的问题,结合Web内容挖掘中的页面相似度改进了传统的PageRank算法,实验证明对算法的改进是有效的。在此基础上,改进了主题敏感的PageRank算法。通过一个小型Web结构图,阐述了改进的主题敏感PageRank算法是如何应用到搜索引擎中的。同时计算了搜索引擎在分别使用传统PageRank、主题敏感PageRank算法和改进主题敏感PageRank算法时的相对查准率。实验结果表明,针对不同的查询,改进的主题敏感PageRank算法使搜索引擎的相对查准率高于传统的PageRank算法和主题敏感PageRank算法,进而证明了改进的Web挖掘算法能够提高搜索引擎的查准率,改善搜索引擎的检索性能。
其他文献
本文针对当前财务管理的现状,深入分析当前管理会计存在的问题和面临的挑战,并结合企业内外部环境明确了未来管理会计的发展趋势。
语文教育叙事研究是一种新兴的质性研究,在实际中还存在着很多值得探讨的地方。我们将从教育叙事学"何谓""何为"角度入手,探索基于语文教学中教育叙事内容及误区,致力于在实
<正>一、正确认识宗教极端主义新疆目前正处于"三期叠加"的严峻时期。当前,宗教极端主义思想已成为影响新疆民族团结、宗教和谐,威胁新疆社会稳定和长治久安的最根本因素。目
通过分析Green-Ampt模型和Philip模型计算累积入渗量的方程,利用两模型参数之间的转换关系,建立两个Green-Ampt模型累积入渗量的显函数,并对其适用性进行评价.不同土壤质地和
在经济飞速发展的现在,人们的消费能力也不断提升,对质量、丰富性、价格等因素催生了跨境零售电子商务行业的产生,税收政策也在其发展中起了重要作用。但现行税收制度并不能
随着计算机网络的飞速发展,越来越多的企业开始采用网络营销的方式来逐步取代传统的营销方式。而在众多的网络营销方式中,搜索引擎营销受到了越来越多的企业尤其是中小企业的
目的:观察小青龙加石膏汤联合西医常规疗法治疗慢性阻塞性肺病急性加重期的临床疗效。方法:收集病例80例,随机分为治疗组和对照组,每组各40例。两组均采用西医常规治疗,治疗
中原传统文化在中华文化发展史上占有重要的根源性、母体性文化的地位,有自身完备的体系结构和显著的文化特征。在文化的复兴发展和繁荣中,中原文化要健康地自立于中华文化和
本文根据凯恩斯的需求管理理论 ,分析我国宏观经济政策的出台背景、政策效应及存在的问题 ,提出了今后的宏观经济政策基本建议