基于浏览意图预测的推荐模型研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fan8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,信息量飞速增加,网络用户数量也不断增长,人类正在通过信息技术将历史上曾经生产的种种媒介内容融入比特之海,同时以史无前例的速度继续生产内容。信息量的急速增加,一方面为人们提供了丰富的信息资源,另一方面也对高效的信息获取技术提出了更高的要求。以前信息生产和流通,主要遵循“先过滤后发布”的原则,大众媒体、学校、专家权威等扮演了把关人和过滤器的角色,用户做为受众群体,虽然方便了信息的获取,但是接触信息受限;随着Web2.0技术的发展,互联网信息平台越来越开放,信息的发展则趋向于“先发布后过滤”,用户能够接触到的信息量激增,但是需要自己主动去过滤并发现信息。如何在海量动态信息环境下更加快速的查找有效信息吸引了越来越多的研究人员和企业的关注,同时信息获取的方式和效率也影响互联网用户的使用感受。如果能够了解用户的想法或者说是用户当下的意图目的,那么利用信息技术和方法则可以更好的解决这个问题。目前的信息服务可以分为两类:一类是用户主动型,例如搜索引擎,基于搜索引擎的优化注重结果之间的排序和关系;另一类是用户被动型,例如推荐系统、邮件过滤系统等。然而,这两类技术针对用户意图的预测主要是基于少量用户输入的关键词或者用户的profile信息,对用户使用互联网时的当前意图的预测不够精确。   本文提出利用机器学习方法,在用户浏览上下文中捕捉并抽取行为动作,并以此来预测用户短期内意图。系统借助于预测出的用户意图或目标描述,改进内容过滤算法,为用户推荐网页以帮助用户更快更好地过滤信息。本文的主要工作是构建一个跨语言的中英文意图预测与推荐模型,该模型是在开源浏览器MyIE平台上实现的新的WebMind浏览器。模型针对用户个体的需求,在客户端实时记录并分析用户网络浏览的历史数据,在用户请求推荐时驱动模型预测短期内用户的信息需求并生成网页推荐。本文通过文献调研与分析,结合心理学的相关专业知识与浏览行为的特点,构建了一个系统化的网络浏览指标体系来指导行为特征的选择,模型通过对web网页的预处理、中文分词等操作生成一个网络浏览序列,针对每个词项建立行为特征向量。通过实验对比,发现决策树算法可以更好的应用于该数据集,因此本文选择利用决策树C45算法来预测意图关键词。在得到用户的意图关键词之后驱动Google搜索引擎匹配用户想要的网页内容,并抽取网页推送给用户。从用户实验结果可以看出,推荐结果评分较高,用户对大部分的推荐结果评价为“满意”。
其他文献
随着社会网络、移动应用以及传感器技术的发展和普及,数据收集的效率、规模和种类得到了很大的提高,催生了对非结构化数据的管理。由于开放环境下的非结构化数据具有海量、异构
随着计算机科学技术的迅速发展,人脸识别技术已经取得了许多重大的研究成果和突破性的技术,但是人脸识别依然是一项比较艰难的课题。人脸图像在采集过程中容易受到复杂环境的影
学术社交网络(Academic Social Networks)是学者用户在线学术交流的网络平台,学者可以方便的在该平台上和其他学者建立好友关系,发布学术动态,分享和评论其他学者的学术动态信息。
随着互联网技术在全球的广泛使用和移动互联网技术的快速发展,大数据时代迅速到来。信息采集和发布技术日益丰富带来了数据爆炸,互联网和智能终端用户的快速增加带来了数据需求
光学显微镜有着一个共同的缺陷:放大倍数越大,其景深越小。在生物医学或者刑侦领域使用的光学显微镜,其景深的数量级通常是10-3m或者更小,这就造成了一个现象:当被观察的物体表
网格计算是科学计算领域的热点问题,其目的是将地理位置上分布各地的各种计算资源、存储资源汇聚起来,实现资源的共享和协同操作。网格内部资源的高效利用关键的因素在于用户提
随着知识工程的快速发展以及石油行业数字化的推进,用知识的方式管理油气勘探开发成果和相关文献逐渐成为数字化油田建设的重点。为了方便利用前人勘探开发经验,有效的管理和
如今大数据时代,数据的稀疏性问题日益严重,传统的单一协同过滤推荐算法很难保证较高的推荐精度。而社交网络的快速发展,使得更多类似于好友关系、标签内容的多元化信息可以融入
安卓操作系统自2008年首次发布以来已经进行了多次更新,然而,数次更新后碎裂开始显现,这使得更新所有先前版本操作系统难以及时实现。除了核心操作系统是开源的,谷歌拥有提高核心
随着互联网用户和数据的急剧增加,高通量计算(High Volume ThrougthputComputing)的需求越来越大,对高通量计算方面的研究也越来越多。高通量计算方面的研究需要海量真实的用