论文部分内容阅读
大数据技术的发展和应用,为众多领域的科学研究开辟了新思路,同时也带来了新的问题和挑战,互联网数据作为大数据的一种表现形式,为现有的科学研究提供了新的数据来源。同时,游客数量的持续增长对旅游管理部门的决策、规划和管理提出了更高的要求和挑战。本文基于互联网数据,结合地理学相关分析技术方法与手段,研究游客旅游流动的时空特征、时空规律、时空预测等。 首先,我们把互联网搜索数据与现实游客数量之间进行关联和映射,通过对搜索量最高的关键词进行自由组合和非线性多项式拟合,找到最优关键词组合,该组合与现实游客数量之间R2高达0.999,反演出2011年至2014年间中国(港澳台除外)31个地区至甘肃省旅游的人数和人均旅游次数,宁夏、青海至甘肃的人均旅游次数最多,分别为每年0.4次和0.35次,对甘肃省客源地时空数据可视化、时空数据异常探测、时空变化规律分析后可知,甘肃周边地区的游客在国家节假日期间出现旅游小高峰,而距离较远地区的游客则在寒暑假期间出现旅游高峰,由此可以帮助旅游部门掌握游客的来源及不同地区游客的出行规律和爱好偏向。 其次,基于大样本的旅游游记挖掘游客的旅游线路,对甘肃省境内的14个地市单位作为旅游节点进行分析,对比其等级关系、中心性、流量密度等要素发现,兰州市是甘肃省游客集散的中心对游客起到重要引流的作用,张掖、敦煌、甘南是三个次级区域。使用聚类的方法,得到甘肃省旅游游客的主要旅游线路,通过对主要旅游线路分类结果的分析可以明晰甘肃省旅游的游客的主要流动模式和次要流动模式,进而得到游客的流动路线。然后,通过马尔科夫链分析游客在不同节点之间的转移概率和移动模式,计算出游客在甘肃省内不同地市间的转移概率矩阵,从而分析甘肃省与其周边省区之间的相互辐射作用,从甘肃对周边地区的辐射情况看,流向青海的游客占比高达75%;从周边地区对甘肃的辐射来看,青海地区流向甘肃的游客量占甘肃流入游客量的68%,两省间的游客流动性较强。使用完全约束Wilson模型计算甘肃省境内和周边地区间的流动阻尼系数β,甘肃省境内的流动阻尼系数为0.672小于全国平均水平,说明距离对甘肃省境内游客的流动阻力较小。 最后,在研究将互联网搜索数据用于游客量的预测上,文中提出了一个完整的预测流程,并分别以北京市和甘肃省的游客量预测为例,对预测模型进行了验证,如在北京市游客量预测上,通过多因素分析和搜索引擎关联推荐获得包含341个关键词的初始词表,对比分析聚类滤值法(ClFM)、相关性滤值法(CoFM)、最大相关性滤值法(BcFM)等三种数据预处理方法模型,将各自筛选的关键词变量分别带入ARIMA(3,2,3)和线性回归方程中,比较所得结果的MAPE、MaxAPE和平稳R2,发现C1FM方法在互联网搜索数据的预处理上表现较好,并且得到的北京市游客量预测平均绝对误差百分比仅为5.4%,预测精度满足实际需求。 本文中的研究成果为旅游管理部门制定可持续发展的旅游政策,科学规划和建设旅游线路,保护景区生态环境,发展地区旅游经济等提供决策支持。