论文部分内容阅读
从海量的用户访问数据中挖掘出有价值的信息成为近年来的研究热点。文中以校园信息中心的DNS日志为数据源,将Hadoop作为数据处理平台来展开分析,并实现了基于MapReduce编程框架的分布式K-means聚类算法。实验证明,该算法能够有效地根据用户特征进行聚类。对校园信息中心的DNS日志进行挖掘和分析,旨在引导学生合理地应用网络。