论文部分内容阅读
数据挖掘是从数据中发现有价值信息的重要方法,特别在海量数据环境的背景下数据挖掘更是备受关注。传统的数据挖掘经历数据预处理、特征构建、模型训练、结果评估的过程,但该过程存在不便性,特别是处理大数据场景下的问题时,不便性尤为突出。体现在以下几个方面: 1、传统的数据挖掘过程中,用户需要根据业务知识对数据进行预处理,但现实世界的数据是肮脏的、复杂的、海量的,初始的处理逻辑可能无法涵盖对所有数据的处理,在出现无法处理的异常数据时,用户需要不断试错来定位异常数据,并进行逻辑修复。该过程在应对大数据时,是十分低效的。 2、传统的数据挖掘过程中,在用户设定模型算法参数后,模型训练自动运行,模型以黑盒的方式构建,用户不可见其中间结果,也无法影响模型的训练过程。在大数据场景下,模型训练相较于小数据量环境成本高(时间资源、计算资源),用户调参的效率低下。对于普通用户而非数据挖掘专家,参数和模型的关系并不直观,调参的过程将更漫长且不易理解。 3、传统的数据挖掘过程中,模型产生的结果无法交互,用户无法获知模型输出和原始输入的关系,模型结果不易被理解。 为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以在数据处理阶段轻松定位异常输入源数据;透明化观察模型的生成过程,即时调整模型的参数;对模型生成的结果进行追溯,获取结果和输入的对应关系。本文的主要贡献有: 1、提出了一种大数据交互式挖掘框架,该框架可以在分布式环境下完成对异常数据的定位、中间结果的获取、结果数据的溯源,从而使大数据场景下的数据挖掘过程变得更加便捷。 2、基于Spark对该框架进行了实现,使用户可以通过浏览器使用该系统,以交互式方式进行数据挖掘。 3、以食源性疾病的爆发预测为案例,完整地进行了从数据处理、特征构建、模型训练到结果展示的过程,验证了系统的可用性。