社交网络中的新型信息获取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:maxever888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络已经成为人们日常生活的一部分,越来越多的人加入社交网络以方便和亲友之间的交流。他们通过社交网络共享文章、照片和视频等内容,发表对生活的感言、对社会事件的看法。信息在现实世界和社交网络虚拟世界之间频繁流动,使得两个世界互相交叉融合,互相影响。在社交网络中,如何有效的获取信息是关乎服务质量和用户体验的核心问题,而不同类型的社交网站往往提供不同的信息获取途径。当前社交网络的发展突出数据庞大、实时性和移动性的信息特征,现有的信息获取技术已经不能很好的支持这些特性。如何加强和突破现有的信息获取技术以向互联网用户提供更高效的信息服务,一直是产业界和学术界共同关心的话题,也是本文的主体研究方向。  本文从当前主流社交网络的服务功能出发,通过详实的用户调查分析现有信息获取技术遭遇的挑战和不足,并结合学术界在相关领域的大量前瞻性研究成果,着眼于三种新的信息获取方式:面向实时数据流的个性化内容推荐、结合社交关系的移动互联网好友推荐和基于微博平台的众包问答模式等。这些新的信息获取方式能有效的解决当前社交网络的内容推荐粒度过大、移动互联网上建立新社交关系的低成功率及众包系统与社交网络的结合不足等问题。本文的技术都通过原型系统的实现和大量实验验证了其对社交网络信息获取的增强作用。  本文的主要研究内容分为三个部分。第一部分为了解决现有内容推荐功能未能考虑用户的个性化需求的问题,深入研究了面向实时数据流的个性化内容推荐技术;第二部分考虑当前移动社交网络上陌生人社交的低成功率,提出结合社交关系和移动位置的好友推荐技术;第三部分从众包系统和社交网络的结合角度出发,提出了基于微博平台的众包问答信息获取技术,实现了基于新浪微博的CrowdAnswer系统。本文的主要贡献及创新点如下:  (1)本文提出了一种面向实时数据流的个性化内容推荐技术。该技术根据用户发布的微博信息有效提取用户的兴趣标签,并建立从标签到用户的索引结果,以计算微博内容与用户之间的相关度值。随时提交的新微博以实时数据流的方式通过从标签到用户的索引结构,被相关感兴趣用户所缓冲,再从缓冲区向用户浏览器进行推送。针对这一过程,提出了一种基于统计的剪枝方法,简称为APS(Approximate Pruning Scheme),以有效避免不必要的相关性计算而减少整个处理过程的开销。基于Twitter和网易微博两个实际数据集出发的大量实验验证了APS方法的高可扩展性和高效性。  (2)本文针对SoLoMo(Social-Local-Mobile)应用提出了一种结合社交关系和移动位置的好友推荐技术。在推荐过程中,我们同时考虑用户间在真实世界里的物理距离和虚拟世界里的社交距离,提出一个全新的度量因素co-space距离作为衡量。co-space距离估量了SoLoMo系统中用户之间的相似程度。用户之间的社交距离由一些MapReduce任务预先计算得到,以key-value方式进行存储,并建立了相关的分布式索引。而用户的实时位置数据通过R树进行维护。对于每个用户的推荐请求,我们根据co-space距离的排序返回k近邻的相关用户。为了支持高效的查询处理,我们提出了一种改进的top-k处理策略和一种适应性的缓存策略。基于Gowalla网站数据集的一系列实验验证了该推荐方法的有效性和高效性。  (3)本文提出基于微博平台的众包问答信息获取技术,并实现了基于新浪微博的CrowdAnswer系统。CrowdAnswer系统对传统众包系统与社交网络平台丰富而免费的人力资源进行整合,将各种类型的问题适应性地推送给不同组的微博用户,从相关回应用户的微博内容中收集到问题的回答,经过聚集、排序等分析处理后为用户呈现可视化的结果展示。CrowdAnswer维护了一套虚拟积分系统,用户需要花费一定积分值以发起和推送问题,并通过有效回答问题而赚取积分。同时,提出了基于用户兴趣模型的精准推送算法,用于将问题推送给感兴趣的用户,以最大化获取有效答案的可能性。通过原型系统的实现和演示,成功展现了众包系统与社交网络结合的有效性。
其他文献
在电子时代,金钱实际上只是另一种信息:存储在电子总账中的借贷信息。今天的支付系统还和上个世纪八十年代的邮件系统一样——依然封闭而没有互联。在互联网通讯和互联网金融
笔者借鉴虚拟仪器的思想,自行设计开发了一种多用途的虚拟数字存储示波器系统,系统的软件部分包括上位机软件和液晶显示屏控制软件.上位机软件利用计算机图形技术在计算机显
近几年来全球范围内网络迅速发展,业务种类不断推陈出新.随着全球经济一体化的发展,电子商务的应用正逐步广泛,各种企业的网络需求日益增长,用户发现很难构造和维护一个能满
该文提出了两种不同的声控Windows应用程序的系统的解决方案.这两种方案采用不同的语音引擎接口和不同的后处理方法.第一种基于API方案的特点是用法简单,但是应用范围比较窄,
本文从知识及知识表示方法角度出发,对以往的计算机考试系统进行了全面的分析和讨论,从中找到这些考试系统的根本缺点,在于这些考试系统是封闭的考试系统,即这些考试系统均使用过
该文研究的重点是以分布式GIS中的QoS问题为出发点,通过对GIS服务质量因素、图层并发控制和空间索引结构等问题的研究,为进一步系统地研究分布式GIS中的QoS问题做铺垫.该文同
我们生活在一个信息过载的时代,网络技术的迅速普及和各种应用的丰富发展,使人们越来越多的使用互联网的服务,在互联网上积累了过于庞大的数据。“信息爆炸”是一个越来越引起人
随着网络技术的发展,各种网络应用在人们的生活中日益普及,人们可以通过网络共享信息,进行交流,处理生活和工作中的各种问题。虽然网络给人们的工作、生活和学习带来极大的方便,但
该文简要介绍了公钥基础设施的发展现状和应用前景,分析了PKI的体系结构和其提供的安全服务,介绍构建PKI系统中所用到的安全和编程技术,并提出了一个基于X.509协议的PKI系统
近年来,随着智能家居概念的普及,智能家居的发展越来越快,很多智能的家居用品如智能冰箱、智能洗衣机等都逐渐融入了人们的生活。一些IT界巨头Google、微软等都在智能家居领域投