论文部分内容阅读
随着信息化的发展,越来越多的机构注重加强信息系统的开发和应用,尤其近些年JavaScript的兴盛不衰,RIA技术的大量运用使许多的应用都基于Web开发和部署,软件工程师们为了更好的了解和掌握用户需求,加强用户体验,开发了很多日志采集系统,通过这些系统记录了用户的访问行为,产生大量的日志数据,这些数据蕴藏着很高价值的信息。分析和挖掘这些数据中潜藏的信息可以得到一些有趣模式,这些有趣的模式可以帮助网络服务提供者提供更好的网络服务。相关机构经常用数据挖掘中的统计分析和关联规则挖掘算法来分析用户的浏览行为、交互行为,提高网站的用户黏度,进而提高网站的服务。本文首先对用户信息行为模式挖掘相关技术研究,包括对用户信息行为国内外现状研究、用户行为模式挖掘结构的研究以及进行挖掘需要的Map/Reduce模型和Apriori算法的研究。本文重点从实际环境中采用clickstreams模型采集用户的点击流数据,通过模型化得到用户会话、活动以及持续时间等属性的点击流模型。采用Map/Reduce模型,将日志数据在云平台进行分类统计,对两个版本系统进行对比分析,分析了用户浏览行为模式。同时对传统Apriori算法进行改进,使之适应Hadoop分布式计算平台,并对系统中的交互行为模式进行挖掘和关联分析,分析用户与用户之间交互行为的关联度以及用户部门之间交互关联度。通过对用户信息行为模式的分析为应用系统网站的优化设计和机构信息决策提供参考依据。最后,对本文所做工作以及对尚存在的问题进行总结,提出可以进一步改进和研究的内容。