【摘 要】
:
随着互联网上的信息量越来越大,传统的通用搜索引擎对信息的查找、索引越发显得力不从心,逐渐显露出“准确性差、时效性差、覆盖率低”等弊端。通用搜索引擎立意于满足用户的
论文部分内容阅读
随着互联网上的信息量越来越大,传统的通用搜索引擎对信息的查找、索引越发显得力不从心,逐渐显露出“准确性差、时效性差、覆盖率低”等弊端。通用搜索引擎立意于满足用户的公共信息查询需求,它根据用户输入的查询串与索引页面在内容上的匹配程度的高低来筛选、返回页面。这种检索方式不但带回大量的无关页面,而且缺乏准确性与实效性,已不能满足人们日益增长的对个性化服务的需求。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。垂直搜索引擎的核心部分是垂直搜索算法。本文首先介绍通用搜索算法的基本原理和关键技术,并对这些算法的优缺点进行了分析,并在此基础上提出了垂直搜索算法。本文对通用的PageRank算法和Hits算法进行了改进:适当的增加主题关键词的权值,对相关的属性赋予适当比重的权值。针对传统的搜索算法产生“主题漂移”和“属性漂移”的问题,本文适当的调整了算法的权重因子,使算法尽可能的避免这类问题。本文对算法阀值的选取进行了讨论,并指出了需要考虑的因素及其对算法结果的影响。作者针对改进的算法设计了一个简单的实验环境,并对改进的算法进行了验证,实验表明,改进的算法能够适当的避免主题漂移等问题。
其他文献
大规模地形场景真实感建模与绘制是虚拟战场、地理信息系统、三维游戏仿真等领域的基础。随着应用的不断扩展和深入,人们对地形场景的规模、绘制速度及仿真精度提出越来越高的
当前数据存储规模日益增长,单个存储设备和存储系统的容量及寿命有限,因此需要经常在不同存储设备和存储系统之间批量迁移文件数据集。不幸的是,现有方法通过单个文件串行拷贝的
随着计算机技术的普及和发展,计算机广泛应用于一些关系到国民经济和国家安全的关键领域,如金融、电信、银行、能源、军事等,对于应用于这些关键行业的计算机系统要求具有极
随着全球一体化的不断发展,学术研究不能闭门造车,需要与国外的学术界互相交流。但作为非英语为母语的英文学术论文写作者,经常会遇到一个英文句子该怎样表达才能让国外同行
近年来,随着金融、传感器网络、股票分析、气象监测等领域的不断发展,一种流动的无限的数据引起了数据库界的广泛关注,从而使数据流管理技术成为当前的研究热点。根据数据流
随着人们日益增长的个性化需求,通用搜索引擎显然已经不能满足用户的各方面需求,由于主题式搜索引擎具有效率高、专业化、目标化、准确性高、及时性、个性化等优势,能够得到越来
强化学习是一种重要的机器学习方法,其特点是通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并且对环境的先验知识要求很低。多Agen
随着计算机技术和网络技术的飞速发展,计算机网络带给人们的好处数不胜数,因此人民群众对信息网络的依赖性越来越强。但是有很多是敏感信息,甚至是国家机密将不可避免地吸引
随着无线通信、集成电路和嵌入式计算等技术的高速发展,由大量低功耗、多功能的微型传感器节点构成的无线传感器网络得到广泛应用,并引起科研人员的极大关注。为此,本文研究