大数据交互式挖掘框架关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yzjzs13141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从数据中发现有价值信息的重要方法,特别在海量数据环境的背景下数据挖掘更是备受关注。传统的数据挖掘经历数据预处理、特征构建、模型训练、结果评估的过程,但该过程存在不便性,特别是处理大数据场景下的问题时,不便性尤为突出。体现在以下几个方面:  1、传统的数据挖掘过程中,用户需要根据业务知识对数据进行预处理,但现实世界的数据是肮脏的、复杂的、海量的,初始的处理逻辑可能无法涵盖对所有数据的处理,在出现无法处理的异常数据时,用户需要不断试错来定位异常数据,并进行逻辑修复。该过程在应对大数据时,是十分低效的。  2、传统的数据挖掘过程中,在用户设定模型算法参数后,模型训练自动运行,模型以黑盒的方式构建,用户不可见其中间结果,也无法影响模型的训练过程。在大数据场景下,模型训练相较于小数据量环境成本高(时间资源、计算资源),用户调参的效率低下。对于普通用户而非数据挖掘专家,参数和模型的关系并不直观,调参的过程将更漫长且不易理解。  3、传统的数据挖掘过程中,模型产生的结果无法交互,用户无法获知模型输出和原始输入的关系,模型结果不易被理解。  为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以在数据处理阶段轻松定位异常输入源数据;透明化观察模型的生成过程,即时调整模型的参数;对模型生成的结果进行追溯,获取结果和输入的对应关系。本文的主要贡献有:  1、提出了一种大数据交互式挖掘框架,该框架可以在分布式环境下完成对异常数据的定位、中间结果的获取、结果数据的溯源,从而使大数据场景下的数据挖掘过程变得更加便捷。  2、基于Spark对该框架进行了实现,使用户可以通过浏览器使用该系统,以交互式方式进行数据挖掘。  3、以食源性疾病的爆发预测为案例,完整地进行了从数据处理、特征构建、模型训练到结果展示的过程,验证了系统的可用性。
其他文献
城市的交通问题是我国城市面临的严重问题之一,也是影响我国经济发展的瓶颈问题。由于交通管理水平要滞后于交通硬件的建设。因此,提高交通管理水平是解决交通问题的关键。交通
物业管理行业是在传统的房屋管理基础上发展而来的新兴行业,近年来获得了长足的发展.随着人们生活水平的提高、住宅多样化的不断发展,物业管理作为一门科学的内涵已经超出了
随着三层/多层企业信息系统结构的深度发展和下一代分布式计算模型Web服务的出现,企业应用中关于平台、框架、语言的竞争也愈演愈烈。J2EE平台在过去几年里一直引领着企业应用
随着网络及信息技术的发展,许多商业实体在网络上协调工作,组成企业动态联盟.企业动态联盟成为当今网络环境下的主要商业模式,基于Internet的Web应用也从支持简单的信息查询
近年来,B型心脏超声图像作为临床心脏疾病诊断的一项常用手段,受到了国内外医务人员、医疗设备制造商和研究人员的广泛关注。多年来积累的心脏超声图像和病例信息是珍贵的医学
电子政务最重要的内涵是运用信息和通信技术实现政府管理方式的革命,因此本文首先分析了电子政务的发展和现状,及信息技术在政府职能和管理方式转变过程中所发挥的作用。研究了
XML技术的发展越来越受到人们的关注,越来越多的公司利用XML技术在基于WEB服务的电子商务活动中传送结构化的数据,其安全性研究变得越来越重要。XML文档中存储的数据具有高度结
数据模型是数据库系统的核心和基础,建立一个安全数据模型,对设计、开发高安全级系统而言是至关重要的。其中强制访问控制是安全数据模型中最重要的部分,是系统安全等级能否达到
计算机视觉实时测量技术克服了传统测量技术精度差、效率低的不足,成为当今工业产品测量的重要方法。利用计算机视觉实时测量零件的几何尺寸具有很好的应用前景,本文主要利用计
目前,基于嵌入式平台开发的产品越来越多,USB技术的应用也越来越广泛.该课题研究内容正是嵌入式平台上的USB设备驱动开发.由于Linux免费提供了全部操作系统的源代码以及详尽