论文部分内容阅读
随着IT技术和互联网的快速发展,极大的促进了社交网络的兴起,国外比较有代表性的社交软件如Facebook、Twitter、Instagram等,国内比较有代表性的社交软件如QQ、微信、新浪微博等。社交网络是以众多用户为基础,用户与用户之间的交流会积累消息数据。一个主流的社交网络如新浪微博,它具有数据量庞大、时间跨度大、传播速度快、影响力广泛等特点。用户发布的微博数据一般都会带有位置信息,挖掘基于位置服务的社交网络数据,对研究用户群的行为习惯,商业广告的精准投放等有着重要的意义。为了更好的研究用户微博数据的时空分布规律,需要建立一个用户微博数据库。借助新浪微博开放平台的API接口,挖掘用户微博数据,并对微博数据进行整理分类存储,再利用百度地图的API接口对这些微博数据进行可视化、空间分析等手段,帮助我们了解整体的用户微博数据的时空动态变化。 地理信息服务极大地促成了地理信息的共享,越来越多的企业或组织将自己拥有的地理空间数据和软件功能开发为地理信息服务供更多的组织和个人享用。由于社交网络中的地理信息本身就拥有庞大的数据量,借助于数据挖掘技术,基于地理位置服务的社交网络数据挖掘就具有很大研究价值。本文通过挖掘基于位置服务的新浪微博数据,并对这些微博数据进行分类、存储、管理、可视化和空间分析,研究人们在时间和空间上的分布规律,可以为今后的人们研究相关领域提供参考和数据支持。 本文针对“微博用户地理信息系统”的建立及其时空分布数据挖掘方面进行了研究,所做的主要工作如下: (1)总结国内外有关基于位置服务的社交网络数据挖掘的方法和相关成果,探讨了WebGIS技术在社交网络数据挖掘方面的研究现状和发展趋势。 (2)通过新浪微博开放平台的API接口挖掘研究区域内的用户微博数据,并进行整理、分类,创建微博用户数据库。 (3)通过百度地图API接口和WebGIS相关技术,发布“微博用户地理信息系统”,实现了在线式查询、可视化、时空分析、统计分析等功能。 (4)从时间及空间角度分析了用户微博数据的分布规律,发现23点到24点的时间段用户发布的微博数据最多,5点到6点的时间段用户发布的微博数据最少;21点到24点的时间段呈现用户微博数量增长最多的趋势,0点到6点呈现用户微博数量下降最多的趋势;光谷广场商圈、街道口到广埠屯商圈、中南路到洪山广场商圈、光谷软件园为微博状态比较聚集的工作区域,商家可以选择这些区域投放广告效果最好,特别是光谷广场商圈。 (5)统计了研究区内学校和商场的签到总数情况,学校当中武汉大学是最受微博用户欢迎的签到点,商场当中光谷世界城广场是最受微博用户欢迎的签到点。