PageRank算法在非网页检索问题中的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:sdtt1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在1998年,网络信息检索领域有两种重要的网页排序模型被提出,它们分别是HITS(Hypertext Induced Topic Search)[5]和PageRank[11]。PageRank由于其固有的对恶意网页的抗干扰性和检索无关的特点逐渐成为主流的网络信息排名方法。PageRank的这两个优点正是HITS的弱点。由于商业利益的原因,有很多的公司采用各种恶意网页技术来欺骗搜索引擎的排序系统从而提高自己网页的排名。如果搜索引擎检索相关的话,候选页面和排序需要为每个检索词来单独计算,这样造成严重的系统负担的同时也降低了检索返回速度。检索无关的搜索引擎通过事先计算出各个网页的重要性从而在有查询请求时快速的返回排序好的相关网页。随着计算机性能的逐步提高和计算机硬件成本的降低,越来越多的多媒体信息如图片,视频等被出现在互联网上。不同于文本检索,多媒体信息的检索长久以来一直没有有效可行的办法,大多数是沿用基于文本的检索技术来利用多媒体信息周围的文字信息对多媒体信息本身进行排序。这样不可避免的会导致对不同检索词检索质量的参差不齐,甚至出现很多跟检索无关的检索结果。近年来,很多研究人员通过利用多媒体信息本身的内容来提高这类信息的检索质量。对网络图像检索来说,Fergus[1]等人首先采用提取搜索引擎所返回的部分结果的图像内容,在利用这些图像信息来对部分返回图像重新排序,实验证明这样的方法明显的改善了图像检索的质量。Jing [2,3,4]等人在此基础上,针对网络图像种类繁多的特点提出了VisualRank来改善网络图像的检索质量。VisualRank首先提取出图像本身的局部信息,然后利用locality-sensitive hashing[15]来对这些信息配对。这样会产生一个图像详细关系图,最后在这个图上利用PageRank对每个图像计算PageRank得分。VisualRank的适用返回比Fergus等人提出的方法更广,但其提出的使用locality-sensitive hashing的图像局部特征匹配方法将会导致内存需求线性的增长。关于不同主题的网络图像集的质量又是千差万别的,VisualRank并没有这种区分能力,对所有的图像特征都进行了匹配。为了克服这两个问题,本文提出了基于网络图片显著特征的网络图片检索方法,首先筛选出那些出现频率较高的特征点,以这些特征点作为图像特征匹配的目标。因为PageRank本身是通过一些节点本身的相似性来对这些节点进行重要性排序,所以它应该有很广的应用范围。针对于目前GPU技术的发展,GPU变得越来越复杂,并且各个模块的相互关联越来越紧密,本文提出了基于PageRank的GPU性能评估办法。
其他文献
随着企业应用环境逐渐向Internet网络分布式计算环境转移,企业级Web应用呈现出复杂性、动态性等特征,对位于中间件层的Web应用服务器性能优化提出了更高的要求,其中资源的利用和
数字视频在教育、娱乐及其它多媒体应用中发挥着重要作用。为了满足需求,各种各样的视频分析、检索技术被提出,其中,视频文本包含了丰富的高层语义信息,可用来对视频进行语义标注
视唱练耳是音乐专业的一门重要的专业必修课程,如果掌握了多媒体这个先进的教学手段,视唱练耳课程在技术上获得更多新的原动力,继而走进一个可持续发展的领域。因此,将电脑音
Web服务是实现面向服务的架构(Service-Oriented Architecture,SOA)的方法之一。SOA的最大优点是可以通过组合已有的服务来快速开发部署新的业务,这些服务可以属于同一组织,也可分
随着科学技术的发展,煤矿生产安全监控系统日臻完善,大多数煤矿都安装了视频监控系统。煤矿视频监控系统在煤矿的安全生产中发挥了重要作用,然而矿井下粉尘多、光照差的恶劣
学位
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主题的搜索引擎应运而生。主题爬虫作为主题搜
现下于人们的日常生活中,基于地理位置信息的服务(LBS,Location-Based Services)是一种经常性被使用的应用服务,绝大多数以LBS为核心的实际应用都依赖于路径规划技术,以提供
Web Service是一种新的web应用程序,为应用程序之间的互操作提供了一种标准的方式。Web Service使不同平台和系统的客户端,能够调用由不同语言开发的服务功能。Web Service体系
试题库自动组卷问题是一个多目标优化问题。本文首先分析了试卷的评价指标以及各项指标的作用,建立了各评价指标约束构建的试卷模型;然后,针对自动组卷系统的自身特征,重点对
随着互联网的迅速发展以及移动智能终端的普及,越来越多的用户在以微博为代表的社交网络上表达自己的观点和情感,由此产生了大量富有情绪表达的文本信息。近年来,情感分析研