基于RBM的搜索引擎

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：zlzlzl567

【摘要】

：

随着互联网及移动互联网技术的不断发展,一方面是用户和互联网交互的程度不断加深,越来越多的用户反馈了相当多的数据,可以从中洞悉到用户体验、商业营销、个人偏好和通常所

【作者】

：

陈玮

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2011年期

【关键词】

：

用户反馈搜索引擎网页排序 RBM CUDA

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网及移动互联网技术的不断发展,一方面是用户和互联网交互的程度不断加深,越来越多的用户反馈了相当多的数据,可以从中洞悉到用户体验、商业营销、个人偏好和通常所说的人类行为,从而提供更有针对性的服务。而另一方面,随着信息日益丰富,如何能够使用户通过搜索引擎更为准确、快速的检索到需要的信息就成了人们普遍关注的焦点,针对搜索引擎的网页排序算法的研究就是其中的热点之一。传统的搜索引擎是基于网页内容排序,一些人为了能提高网站排名,达到吸引更多用户的目的,增加很多无效的内容或者使用其它的方式作弊。如何有效的利用用户反馈的数据来改善搜索引擎的页面排序、防止作弊、提供更为优质的服务,就成了本文研究的重点。论文主要研究工作如下：(1)针对传统的网页排序算法中出现的作弊问题,研究提出一种基于受限波尔兹曼机(Restricted Boltzmann Machines,简记为RBM)的网页排序算法。该算法有机结合了RBM模型的模式识别能力,利用之前用户反馈的信息完成学习,调整关键词与页面的相关系数,通过相关系数的高低完成网页排序。实验结果表明：基于RBM的网页排序算法不仅能够合理地根据之前的用户反馈数据为新的检索请求返回相关性高的检索结果,该算法还能够对未检索过的信息作出相关性的预测。(2)针对用户在检索信息时,更注重结果是否与自身需求相吻合的情况,提出基于RBM的个性化搜索引擎方案。该方案对带有用户个性特征的样本进行学习,为用户个性化地调整关键字同页面间的相关系数。当用户检索信息时,按照调整后的相关系数高低完成排序,满足用户个性化的需求。(3)针对本文提出的搜索引擎在网页排序及学习上需要耗费大量时间等问题,研究提出基于并发的搜索引擎。通过引入计算同一设备架构(Compute Unified Device Architecture,简记为CUDA),把RBM模型在网页排序和学习的工作拆分成多个步骤,实现每一个步骤内部的并行计算；并利用CUDA的流技术实现了网页排序模块和学习模块之间并发执行。用仿真技术对搜索引擎的排序和学习过程进行仿真,并对仿真结果进行了统计和分析,结果表明CUDA能够对搜索引擎的运行提供较好的加速,增加了单位时间内的吞吐量。加快检索过程能够降低用户等待的时间,及时的学习可以更快的反映当前用户的反馈情况,使结果更为准确。在国内对用户反馈的数据研究尚有不足的背景下,本文融合了RBM模型与基于用户反馈的搜索引擎模型,实现了基于RBM的网页排序算法,建立了基于RBM的搜索引擎模型。论文研究成果对进一步的利用用户反馈的数据改进网页排序算法和提供具有针对性的服务具有重要的理论参考价值和使用价值。

其他文献

高光谱图像亚像元级目标检测的非线性方法研究

高光谱遥感图像目标检测是高光谱遥感理论与应用研究的重要环节。由于高光谱图像数据的复杂性,如波段间非线性相关、普遍存在混合像元、训练样本少、噪声影响、同物异谱、同

学位

高光谱图像目标检测非线性方法亚像元扩展数学形态学空间信息

群智感知中位置及轨迹隐私保护方法研究

学位

基于模型融合的迭代式分布式聚类框架的设计与实现

信息总量巨大,分散存储在不同地点,涉及隐私保护的信息增多等是当今数据信息所呈现出来的新特点。由于网络带宽,隐私保护和单机处理能力有限等因素的限制,难以将这些信息聚集

学位

分布式数据挖掘聚类M-K-meansHadoop

基于局部自适应核回归的Adaboost人脸检测算法研究

人脸检测作为人脸识别和人脸图像信息处理的关键技术，其检测效果会直接影响到后续课题的研究。由于图像容易受到成像设备、成像条件以及存储方式的影响，致使人脸检测技术在投入

学位

人脸检测AdaBoost算法核回归局部自适应核回归特征检测特征提取

基于误差修正的无线传感器时间同步协议的研究

无线传感器网络(Wireless Sensor Networks,WSNs)是一种由大量低成本、低功耗、有无线通信功能的传感器节点组成的网络系统。无线传感器网络技术的发展,离不开大量基础技术的

学位

无线传感器网络时间同步误差修正节点基站

基于XML的模型库系统研究

决策支持系统作为一种先进的科学技术手段,能为问题的解决提供备选方案,有助于提高决策人员的决策水平。模型库系统作为决策支持系统的三大组成部分之一,可为决策支持系统提

学位

模型库系统模型组合XML决策支持系统

分层式无线传感器网络的密钥管理

无线传感器网络是由许多低成本、低功耗同时具备信息采集、数据处理以及无线通信能力的微型传感器节点通过多跳、自组织的方式形成的一种网络结构。正是凭借低成本、多功能及

学位

分层式无线传感器网络密钥管理密钥预分配门限秘密分享安全性

基于量子计算的Hash碰撞安全性研究

Hash函数作为数字签名的基石，不仅用于检测网络通信信息是否被篡改，而且是保障电子签名、身份认证等多种密码系统安全的关键技术，有着十分重要的作用，目前Hash函数的安全性分析均

学位

量子计算Hash函数Grover量子搜索算法量子计数量子黑箱Oracle量子线路

SPARQL运行时查询优化算法研究

SPARQL是W3C推荐的基于图匹配机制的RDF查询语言。随着互联网上大规模RDF数据集的不断涌现,现有的查询算法无法满足高效的获取查询结果的需求。提出了一种针对SPARQL语句的运

学位

SPARQL运行时查询优化取样

基于Nutch的科技项目主题搜索引擎研究

随着互联网信息的日益增长,通用搜索引擎已经无法满足用户对于特定领域信息的查询需求。搜索引擎正在向个性化、主题化、智能化发展,其中基于某种特定主题的搜索引擎已成为一

学位

搜索引擎主题爬行器网页排序科技项目Nutch

基于RBM的搜索引擎

其他学术论文