基于内容与链接分析的主题相关网站排序算法的研究

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:chrisliuyaqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,人们往往需要借助搜索引擎来寻找资料,为了解决通用搜索引擎返回的大量没用结果的通病,面向专业领域的搜索引擎即垂直搜索引擎应运而生。在这种趋势下,网站作为互联网中最重要的有组织的结构之一,在Web搜索和挖掘的应用中起着越来越重要的作用。因此,如何有效的对网站进行关于某个主题相关的重要性排序对于很多Web应用是很有必要的,如垂直搜索引擎、聚焦爬虫等。众所周知,链接拓扑学能在鉴别网页重要性中被广泛利用。本文中,我们将在传递页面Rank值时考虑被链接页面内容的相关度,在基于主题相关的随机冲浪者模型基础上,实现基于内容与链接分析的主题相关PageRank页面排序算法,有效的解决了“主题偏移”的问题。由于网页的数量比网站的数量大的多,通过计算主题相关的页面PageRank之和来获得主题相关下网站的排名是不可行的。为了解决这个问题,本文在前人的基础上提出了基于链接与内容分析的主题相关AggregateRank网站排序算法。该算法不仅能很精确的近似主题相关PageRank之和,而且复杂度更小。最后是系统的设计与实验,在上述理论分析的基础上提出了系统的设计思想,介绍了系统的体系结构和具体实现技术。通过对本系统抓取的50个关于ChildHealth主题的网站分析表明,在同时考虑效率与效力的情况下,本文建议的基于内容与链接分析的主题相关AggregateRank网站排序算法是更好的选择。
其他文献
传感器技术的发展和移动终端设备的大规模普及为群智感知技术的应用奠定了坚实的基础。群智感知当前的研究集中于数据处理、群智感知应用、群智感知平台和激励机制几个方面。
近十年来,并行处理技术,包括从硬件,系统软件到各类应用软件的发展速度越来越快,甚至连小型终端的移动手机,处理器等都推出了四核,八核甚至更多,而且还配上了图形图像处理器GPU。高
SAP BW(Business Information Warehouse,商务信息仓库)是一件企业亟需的“采金器”,它也被认为是可以满足用户需求数据仓库系统中功能最强的一个,只有一个好的数据仓库数据
近年来,石油化工产业发展迅速,危化品[1]种类不断增多,存放这些危化品的仓库因此也越来越密集,甚至有些已经深入一些居民区,它们成为了威胁附近居民生命财产安全的定时炸弹。
随着媒体资源的不断丰富,如何有效地管理媒体资源已成为研究的焦点。本文主要研究基于SOA架构的媒体资源管理平台,实现对媒体资源及其服务的管理,解决了传统媒体资源管理系统
传统的企业应用集成技术已经不能适应企业信息系统的快速增长,Web Services的产生及发展为企业应用集成提供了新一代的技术。利用Web Services技术来实现企业应用集成可以解
IPv4技术的局限性限制了互联网的进一步发展,新兴的IPv6技术克服了原有协议栈的很多缺点,具有逐渐替代IPv4技术的趋势。这一替代过程需要较长的过渡时期,实现这种过渡的主要技术
空间数据固有的海量性和复杂性使得传统的数据库查询处理技术不能或不能有效地发挥作用,需要研究新的查询处理技术。因此如何提供各种高效的空间与空间对象查询处理技术是当
在大数据与不断增长的用户数量的复杂协作环境中,企业如何能够充分的整合现有的人力物力、业务与数据资源,使得企业的信息资源能够及时的交换和获取,这是一个企业提高竞争力
机器人技术综合了多学科发展的成果,涉及机械、电子、传感器、自动化、计算机、信息处理等多门学科。随着机器人教育的深入,机器人作为一种学习载体逐渐被人们所广为利用。如