论文部分内容阅读
随着web2.0技术的产生和发展,用户产生的内容(User-Generated Content,UGC)成为互联网中资源的重要来源之一。YouTube、YouKu等UGC视频系统近年来取得了重大的成功。YouKu,作为中国最大的视频系统,已经拥有了大量的用户和视频资源,每日的视频播放数超过了200,000,000。在UGC视频系统中,用户不仅是内容消费者,更是内容创造者。
UGC视频系统中用户之间的视频连接可以改变视频的访问模式以及用户行为,但是目前并不清楚用户社会连接是如何建立起来的。为了充分的了解和认识UGC视频系统中用户之间的社会连接,论文对UGC视频系统的用户社会连接进行了分类别的深入分析,提出了基于用户兴趣的好友推荐算法。论文主要工作与创新点如下:
1)设计并实现了一个UGC视频系统大规模数据测量平台。该平台采用多线程机制设计网络爬虫,选用宽度优先搜索(Bread First Search,BFS)算法对YouKu视频系统进行爬行,并利用Bloom滤波器对爬行过程中出现的重复链接进行去重处理,保证了数据获取能够顺利进行。测量平台在设计时综合考虑了爬行的效率、异常处理、数据去重、数据偏见性等问题,解决了对UGC视频系统大规模数据获取的众多困难。利用该测量平台,共获取了将近300万的视频数据、60多万的用户数据。
2)分析了UGC视频系统的基本特性,发现了用户低出度、非pow-law分布、低互惠性、非同配性等规律,充分说明了目前UGC视频系统的社会连接非常弱。利用用户所上传视频的标签,建立用户向量,并利用空间向量模型可以计算出好友之间的语义相似度。结果表明,相当一部分好友之间具有语义相关性。根据语义相关性以及好友关系结构,论文对用户的社会连接进行了深入分析,并指出了社会连接所形成的原因。通过视频连接所形成的相关用户对,可以为UGC视频系统的好友推荐提供条件。本文进一步分析了相关用户对之间的视频相关度以及语义相关度,发现他们之间具有高视频相关度和语义相似度。
3)提出一种基于用户兴趣的好友推荐算法,增强了UGC视频系统中社会连接的关联性。通过对UGC视频系统的分析可以看出目前UGC视频系统中用户之间的社会连接很弱,但用户的社会连接对UGC视频系统又有着非常重要的影响,通过推荐语义相似的用户成为好友可以增强系统的社会连接的关联性。本文所提出的基于用户兴趣的好友推荐算法只需要局部信息,通过视频之间的关联可以很快找到可能成为好友的用户对。该算法被应用于所获取的YouKu数据集上,通过一跳视频搜索来对算法进行了验证。原YouKu系统相比,推荐后的YouKu系统社会连接明显增强,搜索到的视频数是原来的4倍。