论文部分内容阅读
社交网络已经成为人们日常生活的一部分,越来越多的人加入社交网络以方便和亲友之间的交流。他们通过社交网络共享文章、照片和视频等内容,发表对生活的感言、对社会事件的看法。信息在现实世界和社交网络虚拟世界之间频繁流动,使得两个世界互相交叉融合,互相影响。在社交网络中,如何有效的获取信息是关乎服务质量和用户体验的核心问题,而不同类型的社交网站往往提供不同的信息获取途径。当前社交网络的发展突出数据庞大、实时性和移动性的信息特征,现有的信息获取技术已经不能很好的支持这些特性。如何加强和突破现有的信息获取技术以向互联网用户提供更高效的信息服务,一直是产业界和学术界共同关心的话题,也是本文的主体研究方向。 本文从当前主流社交网络的服务功能出发,通过详实的用户调查分析现有信息获取技术遭遇的挑战和不足,并结合学术界在相关领域的大量前瞻性研究成果,着眼于三种新的信息获取方式:面向实时数据流的个性化内容推荐、结合社交关系的移动互联网好友推荐和基于微博平台的众包问答模式等。这些新的信息获取方式能有效的解决当前社交网络的内容推荐粒度过大、移动互联网上建立新社交关系的低成功率及众包系统与社交网络的结合不足等问题。本文的技术都通过原型系统的实现和大量实验验证了其对社交网络信息获取的增强作用。 本文的主要研究内容分为三个部分。第一部分为了解决现有内容推荐功能未能考虑用户的个性化需求的问题,深入研究了面向实时数据流的个性化内容推荐技术;第二部分考虑当前移动社交网络上陌生人社交的低成功率,提出结合社交关系和移动位置的好友推荐技术;第三部分从众包系统和社交网络的结合角度出发,提出了基于微博平台的众包问答信息获取技术,实现了基于新浪微博的CrowdAnswer系统。本文的主要贡献及创新点如下: (1)本文提出了一种面向实时数据流的个性化内容推荐技术。该技术根据用户发布的微博信息有效提取用户的兴趣标签,并建立从标签到用户的索引结果,以计算微博内容与用户之间的相关度值。随时提交的新微博以实时数据流的方式通过从标签到用户的索引结构,被相关感兴趣用户所缓冲,再从缓冲区向用户浏览器进行推送。针对这一过程,提出了一种基于统计的剪枝方法,简称为APS(Approximate Pruning Scheme),以有效避免不必要的相关性计算而减少整个处理过程的开销。基于Twitter和网易微博两个实际数据集出发的大量实验验证了APS方法的高可扩展性和高效性。 (2)本文针对SoLoMo(Social-Local-Mobile)应用提出了一种结合社交关系和移动位置的好友推荐技术。在推荐过程中,我们同时考虑用户间在真实世界里的物理距离和虚拟世界里的社交距离,提出一个全新的度量因素co-space距离作为衡量。co-space距离估量了SoLoMo系统中用户之间的相似程度。用户之间的社交距离由一些MapReduce任务预先计算得到,以key-value方式进行存储,并建立了相关的分布式索引。而用户的实时位置数据通过R树进行维护。对于每个用户的推荐请求,我们根据co-space距离的排序返回k近邻的相关用户。为了支持高效的查询处理,我们提出了一种改进的top-k处理策略和一种适应性的缓存策略。基于Gowalla网站数据集的一系列实验验证了该推荐方法的有效性和高效性。 (3)本文提出基于微博平台的众包问答信息获取技术,并实现了基于新浪微博的CrowdAnswer系统。CrowdAnswer系统对传统众包系统与社交网络平台丰富而免费的人力资源进行整合,将各种类型的问题适应性地推送给不同组的微博用户,从相关回应用户的微博内容中收集到问题的回答,经过聚集、排序等分析处理后为用户呈现可视化的结果展示。CrowdAnswer维护了一套虚拟积分系统,用户需要花费一定积分值以发起和推送问题,并通过有效回答问题而赚取积分。同时,提出了基于用户兴趣模型的精准推送算法,用于将问题推送给感兴趣的用户,以最大化获取有效答案的可能性。通过原型系统的实现和演示,成功展现了众包系统与社交网络结合的有效性。