论文部分内容阅读
随着民航业的快速发展,航班延误逐渐成为一个热点话题。航班延误成因较难解释,因为其可能受制于多重因素,例如天气原因,出发地或者目的地机场管理原因,航空公司管理原因,航空管制原因,前序航班原因,旅客原因等等,甚至多重原因叠加或多种原因形成连锁效应。对于机场而言,尤其是规模较大的机场,航班延误将导致非常有限的航路、跑道、机场设施等资源分配计划被打乱,也可能导致旅客滞留,从而显著增加机场的安全、运营和调度压力,造成航空公司或旅客满意度下降。对航空公司而言,其营业利润严重依赖于每架飞机严格按照计划时刻表运营,每次航班延误将导致运营、维护和人力成本的增加,并可能导致后序的运营计划全部被打乱,后序航班持续延误或被迫取消,各种成本进一步上升。对旅客而言,航班延误为出行途中最不愿意碰到的情况,时间、精力因此而损耗,后序行程也因此受到影响。对于保险公司而言,航班延误的研究与预测也对其旅行保险、航班延误保险等险种的定价与经营有重要的意义。本文对于航班延误的分析与预测将有助于改进上述问题,帮助上述各方做更好的预判,实现各方收益的优化。本文采用了机器学习中的有监督式学习的几种主流方法,对于全美2015年航班延误数据进行了分析和预测。在定性分析与预测阶段,使用了k-NN、C4.5、随机森林和支持向量机四种算法,并且通过引入新的解释变量的方法优化了模型的预测结果,优化后的模型对于特定航线的预测准确率可以达到80%左右。在定量分析与预测阶段,使用了线性回归模型对抽样数据进行了分析预测,并使用了随机梯度下降的计算方法对全年数据进行了预测分析,预测误差为21.2分钟。