UGC视频系统中社会网络关联性研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:cw5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0技术的产生和发展,用户产生的内容(User-Generated Content,UGC)成为互联网中资源的重要来源之一。YouTube、YouKu等UGC视频系统近年来取得了重大的成功。YouKu,作为中国最大的视频系统,已经拥有了大量的用户和视频资源,每日的视频播放数超过了200,000,000。在UGC视频系统中,用户不仅是内容消费者,更是内容创造者。   UGC视频系统中用户之间的视频连接可以改变视频的访问模式以及用户行为,但是目前并不清楚用户社会连接是如何建立起来的。为了充分的了解和认识UGC视频系统中用户之间的社会连接,论文对UGC视频系统的用户社会连接进行了分类别的深入分析,提出了基于用户兴趣的好友推荐算法。论文主要工作与创新点如下:   1)设计并实现了一个UGC视频系统大规模数据测量平台。该平台采用多线程机制设计网络爬虫,选用宽度优先搜索(Bread First Search,BFS)算法对YouKu视频系统进行爬行,并利用Bloom滤波器对爬行过程中出现的重复链接进行去重处理,保证了数据获取能够顺利进行。测量平台在设计时综合考虑了爬行的效率、异常处理、数据去重、数据偏见性等问题,解决了对UGC视频系统大规模数据获取的众多困难。利用该测量平台,共获取了将近300万的视频数据、60多万的用户数据。   2)分析了UGC视频系统的基本特性,发现了用户低出度、非pow-law分布、低互惠性、非同配性等规律,充分说明了目前UGC视频系统的社会连接非常弱。利用用户所上传视频的标签,建立用户向量,并利用空间向量模型可以计算出好友之间的语义相似度。结果表明,相当一部分好友之间具有语义相关性。根据语义相关性以及好友关系结构,论文对用户的社会连接进行了深入分析,并指出了社会连接所形成的原因。通过视频连接所形成的相关用户对,可以为UGC视频系统的好友推荐提供条件。本文进一步分析了相关用户对之间的视频相关度以及语义相关度,发现他们之间具有高视频相关度和语义相似度。   3)提出一种基于用户兴趣的好友推荐算法,增强了UGC视频系统中社会连接的关联性。通过对UGC视频系统的分析可以看出目前UGC视频系统中用户之间的社会连接很弱,但用户的社会连接对UGC视频系统又有着非常重要的影响,通过推荐语义相似的用户成为好友可以增强系统的社会连接的关联性。本文所提出的基于用户兴趣的好友推荐算法只需要局部信息,通过视频之间的关联可以很快找到可能成为好友的用户对。该算法被应用于所获取的YouKu数据集上,通过一跳视频搜索来对算法进行了验证。原YouKu系统相比,推荐后的YouKu系统社会连接明显增强,搜索到的视频数是原来的4倍。
其他文献
视觉真实感绘制是通过对人眼进行光学建模,以人眼模型为成像模型,对人眼的多种成像特性和视觉缺陷进行模拟成像的技术。它能够绘制反映人眼球面像差、近视和远视等视觉特性的图
带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的
伴随着信息技术的迅速发展,网络信息量以指数级增长,以及网络信息检索工具效率低下,使用户很难从网上检索到所需信息。在本人参与的科技信息资源中心系统中,由于科技信息资源数据
随着世界各国在空间探测领域内的深入研究和扩展实验,空间探测领域使用的计算机系统所需完成的任务越来越复杂。但在空间环境中,由于空间辐射的影响,计算机系统很容易发生硬件故
具有真实感的语音可视化合成技术一直是多媒体和人机交互领域的一个有趣而具有挑战性的研究方向。它可以广泛地应用于教学、数字娱乐、远程会议以及电影游戏等方面。   本
基于关键字的搜索引擎是人们在互联网上搜索信息的重要方式,而互联网上大量的关系数据库则构成了DeepWeb的主要组成部分,因此面向关系数据库的关键字搜索成为该领域学者关注
近年来在线社交网络(Online Social Network,简称OSN)飞速发展,用户数量不断增加。在线社交网络以用户为中心,每个用户和网络中的其他用户成为朋友,形成人际关系网络,用户之间通过
近年来,随着各种数据获取技术与影像技术的逐渐成熟,三维标量场可视化技术已经成为科学计算可视化领域中的研究热点。体绘制作为一种重要的三维标量场可视化技术,在科学计算、医
数据驱动的人体动画合成采用捕获的真实人体运动数据驱动虚拟人体模型来产生动画,该方法由于动画制作效率高,所得结果真实感强,在近年来得到了广泛应用。但是由于运动捕获数据只
物种的鉴别与分类是生物学等科学领域中一项较为常见的科学研究内容。传统的基因鉴别、形态学鉴别等物种鉴别方法都需要专业的数据库支持,并且需要专业人员对样本的基因、形态