社会网络内容访问分布与用户行为模式分析

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:tiantangdaoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在以静态网页为主的Internet上,网页的访问模式基本符合Power-Law分布。Power-Law分布是Web缓存和内容分发技术的理论依据,即可以用少量的资源满足大多数访问的请求。但是随着网络的不断发展,静态网页所占比例越来越少,许多研究发现目前网络上许多资源的访问模式并不遵循Power-Law分布。在对网络上流媒体流量分析的研究发现,用户对视频文件的访问满足一种扩展的指数分布Stretched Exponential(SE),其原因在于:1)一个多媒体文件用户最多下载一次;2)信息过滤机制使得很多内容无法推荐到个人。在这种模式下,Web缓存很难达到静态网页那样的效果。   随着社会网络的不断发展,网络上与个人相关的数据越来越多。与静态网页相比,个人数据反映了用户的兴趣,爱好,读者大多是个人的社会关系。我们收集了一些个人数据访问的负载,包括博客和相册,对其进行访问模式的分析,得出以下几个结论:   ·个人社会网络站点的内容访问对于Power-Law分布的拟合优度较高。在个人社会网络站点中,全部的内容由同一个人提供因而不存在内容访问者对内容提供者的筛选问题。内容的访问分布主要受到内容本身的关注度影响因而也更符合传统的Power-Law分布规律。   ·在社会网络站点中,视频类社会网络站点具有较高的拟合参数α因而具有较高的访问集中程度。经过分析,这种更高的访问集中程度主要源于视频类访问站点的推荐机制。   ·社会化网络站点的内容访问分布偏离Power-Law分布的程度有所不同。从拟合有度参数直观来看,视频类站点相对博客站点更好地符合Power-Law所描述的80-20原则。   ·在用户访问社会化网络站点中的内容时,表现出两种极端的行为模式:漫游型浏览和社会化浏览。漫游型浏览的用户对内容的提供者关注度较低,主要受内容本身驱使。社会化浏览用户的浏览行为则更多地受到内容提供者的影响。社会局部性指标定量的描述了用户的浏览特性。   ·社会化网络站点的社会局部性对于该站点的内容访问分布有较强影响。社会局部性较高的站点更加偏离Power-Law分布。在这些站点中,用户不仅只关注内容本身的吸引力,而是更多地受到内容提供者的影响。这使得内容的访问更加均匀进而偏离80-20原则。
其他文献
随着计算机和网络技术的迅猛发展,传统的工业生产正逐渐向以计算机为主导的自动化控制生产转变。在煤炭行业,发展以计算机自动化控制为核心的采煤工艺和监控技术,是近年来煤
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享
由于易用性和良好的扩展性,google提出的MapReduce编程模型被广泛应用于各类大规模数据处理和分析项目中。在实际应用中,一个分析项目往往需要分解成多个MapReduce作业,且这些计
多核已经成为处理器设计的主流技术,应用软件要想获得性能提升也必须实施并行化,并行编程也就成为了广大程序员不可回避的问题。   传统的并行计算多集中在高性能数值计算领
快速傅里叶变换(FFT)是许多信号处理系统的核心算法,不同的应用场合对FFT处理器有不同的性能要求。本文根据项目的总体设计要求,对快速傅里叶变换的相关技术进行分析研究,并结合
条烟装箱是卷烟生产的最后一道工序,在条烟装箱时,装箱机有时会工作混乱,特别是在条打包机生产流量较大或来料不够的情况下,装箱机的工作有可能会不正常,从而出现缺条、缺排或箱内
蛋白质序列鉴定是人类了解蛋白质的第一步,随着基于串联质谱鉴定的蛋白质鉴定技术日趋成熟,高通量、大规模的蛋白质序列鉴定已不再是难题;蛋白质交联技术建立了从蛋白质序列到蛋
随着计算技术和网络技术的飞速发展,IT基础设施中的计算、存储等各类资源都通过网络聚合在一起。这种基于网络的计算环境通常直接服务于开放的、大规模的用户群体,而用户的需求
本文研究了将多个不同的监督学习模型和非监督学习模型进行合并的问题,并开发了数据挖掘云服务平台COMS(Cloud Oriented Mining System)。   现有的对多模型合并问题的研究
微生物功能基因组与元基因组的研究是目前微生物领域中的热点,其数据种类繁杂、数据量大、格式多样等特点,给研究人员使用和分析数据信息带来了一定的障碍。通过与中国科学院微