论文部分内容阅读
微博是一个拥有庞大用户群体和海量数据的社交网络。以新浪微博为例,目前的注册人数已经超过2.5亿,每天大约会有1亿条左右的微博内容产生。面对如此庞大的信息会让用户感到非常茫然,如果有一套系统来给用户推荐一些他可能关心的人或者热点新闻,那么即可以帮助用户快速建立起社交圈子,又可以让用户更高效的使用微博。本文研究了基于Hadoop的微博推荐系统的设计及实现,主要工作如下:首先分析了个性化推荐系统的研究进展,并分析了系统相关技术,包括Hadoop分布式计算框架、NoSql数据库、分词技术和聚类推荐算法等。其次,针对微博的特点,从数据预处理、分析、存储和展示的步骤入手,给出了微博推荐系统的框架设计,包括数据收集,数据处理,数据展示三个子系统:其中数据收集子系统包含爬虫、ETL和MongoDB三个模块;数据处理子系统包括关键词推荐、用户推荐和微博推荐三个主要模块;数据展示子系统有用户管理、关键词推荐、用户推荐、微博推荐四个关键模块。以及数据处理中所用系统表的设计。基于Hadoop平台,设计并实现了相应的模块。最后搭建了基于Hadoop的测试平台,对平台进行了性能测试,并对数据抓取,分析,推荐结果等关键阶段进行了分析和验证,结果表明系统达到了设计要求。该系统采用分布式架构设计,可靠性高,可扩展能力、计算能力强,适合对海量微博数据的离线快速处理。可以帮助微博用户更方便的使用微博,增加系统对用户的粘度,同时可以给企业或者科研工作提供及时准确的数据支持。