论文部分内容阅读
在以静态网页为主的Internet上,网页的访问模式基本符合Power-Law分布。Power-Law分布是Web缓存和内容分发技术的理论依据,即可以用少量的资源满足大多数访问的请求。但是随着网络的不断发展,静态网页所占比例越来越少,许多研究发现目前网络上许多资源的访问模式并不遵循Power-Law分布。在对网络上流媒体流量分析的研究发现,用户对视频文件的访问满足一种扩展的指数分布Stretched Exponential(SE),其原因在于:1)一个多媒体文件用户最多下载一次;2)信息过滤机制使得很多内容无法推荐到个人。在这种模式下,Web缓存很难达到静态网页那样的效果。
随着社会网络的不断发展,网络上与个人相关的数据越来越多。与静态网页相比,个人数据反映了用户的兴趣,爱好,读者大多是个人的社会关系。我们收集了一些个人数据访问的负载,包括博客和相册,对其进行访问模式的分析,得出以下几个结论:
·个人社会网络站点的内容访问对于Power-Law分布的拟合优度较高。在个人社会网络站点中,全部的内容由同一个人提供因而不存在内容访问者对内容提供者的筛选问题。内容的访问分布主要受到内容本身的关注度影响因而也更符合传统的Power-Law分布规律。
·在社会网络站点中,视频类社会网络站点具有较高的拟合参数α因而具有较高的访问集中程度。经过分析,这种更高的访问集中程度主要源于视频类访问站点的推荐机制。
·社会化网络站点的内容访问分布偏离Power-Law分布的程度有所不同。从拟合有度参数直观来看,视频类站点相对博客站点更好地符合Power-Law所描述的80-20原则。
·在用户访问社会化网络站点中的内容时,表现出两种极端的行为模式:漫游型浏览和社会化浏览。漫游型浏览的用户对内容的提供者关注度较低,主要受内容本身驱使。社会化浏览用户的浏览行为则更多地受到内容提供者的影响。社会局部性指标定量的描述了用户的浏览特性。
·社会化网络站点的社会局部性对于该站点的内容访问分布有较强影响。社会局部性较高的站点更加偏离Power-Law分布。在这些站点中,用户不仅只关注内容本身的吸引力,而是更多地受到内容提供者的影响。这使得内容的访问更加均匀进而偏离80-20原则。