论文部分内容阅读
互联网作为全球性的信息网络对人们的生产和生活产生着深刻影响,在用户从互联网上获取信息的同时,服务器会对用户的访问行为进行相应的记录,生成互联网日志数据。互联网日志数据蕴含了大量的空间信息。目前,对于互联网日志数据的研究主要是利用数据挖掘、机器学习等技术对用户访问行为和系统安全性等进行分析和监测,而在空间层面上的研究还相对较少。对互联网日志数据的研究与地理空间相结合,利用地理信息系统中的技术手段和方法对互联网日志数据进行空间上的挖掘,可以有效的获取其隐含的空间规律,在为互联网日志数据的分析提供了更宽的视野和角度的同时,也可促进以信息流为研究对象的信息地理学研究,具有重要的理论意义和实践价值。本文以从中国互联网络信息中心获取的连续24小时的cn域名服务器日志数据为研究基础数据,针对cn域名服务器日志数据的特点,实现对cn域名服务器日志数据的海量数据处理、地理编码和空间化,并从全球、地区和局域三个尺度对其进行空间分析,旨在理论上为信息地理学拓展研究领域,在技术上构建网络日志数据处理和空间化表达的技术体系,在实践上为网络基础设施建设提供参考。主要研究内容及结论如下:(1)对信息地理学、互联网DNS服务以及属性数据空间化的相关理论体系进行梳理。总结了信息地理学的内涵以及研究方向。归纳了互联网DNS服务的概念、体系结构以及工作原理,指出域名服务器日志数据具有结构化和海量性的特点。概括了属性数据空间化的涵义和基本方法。在理论梳理的基础之上,构建顶级域名网络访问空间特征分析的理论体系。(2)针对cn域名服务器日志数据结构化、海量性的特点以及传统地理信息系统在海量数据处理方面的不足,构建了海量数据处理框架,实现对日志数据的高效处理。经过对日志数据中地理信息的提取和对访问量空间分布的影响因素的分析,设计了cn域名服务器日志数据的空间化方法并对其进行实现。(3)从全球、地区以及局域三个尺度对cn域名服务器日志数据进行了空间分析,揭示了cn域名下网络服务的访问量在空间上的分布格局。探索了这种分布格局形成的原因以及反映出的问题。这些分析结果将为未来中文网络在中国乃至全球的发展提供参考和指导。