论文部分内容阅读
随着信息技术的发展,各行业均产生了海量数据,对其进行合理分析可以提供有效的决策帮助。这些工作需要建立在高质量数据的基础上,劣质数据往往会对分析结果造成严重影响,带来巨大损失。目前,由于硬件性能、拼写错误等因素影响,获取的数据中往往存在不一致、不完整等问题。因此,在管理和分析数据之前需要对劣质数据进行修复。大多数现有的修复方法侧重于提供自动化的解决方案,通过启发式方法对数据进行最小修复,存在过度依赖领域专家和不能保证修复精确性等问题。此外,不加入额外的知识以及不全面的规则定义都会降低修复的精确性。
本文研究让用户参与修复过程,由用户主动探索数据,而不是预定义修复规则。研究了Falcon算法,通过泛化用户修改单个元组的动作产生修复更多数据的规则,并与用户交互保证修复的精确性。同时,针对 Falcon 算法过度依赖用户的问题,通过在修复过程中应用主动学习算法,使用获得的高精度收敛分类器代替用户修改元组,减少了用户的工作量。
首先,深入研究了 Falcon 算法,以用户对一条元组的修改为引导,生成一组可能用于修复数据的候选规则集,将其构建为格,并从中选择候选规则由用户验证其有效性。针对 Falcon 不能有效比较格中不同路径中的规则的问题,本文设计了基于数据增益的搜索算法,以验证格中规则带来的数据增益为标准,从格中选择规则与用户交互,由用户验证规则的有效性,快速地提高数据质量。
其次,针对Falcon算法过度依赖用户的问题,在修复过程中引入主动学习框架,使用获得的高精度收敛模型预测属性的更新值,代替用户对元组的修改,从而降低用户的参与成本。首先基于相似度确定发生错误的属性,然后结合共轭梯度的思想提出主动增量学习算法,利用每次迭代中由用户确认正确的一批数据增量地更新基准模型,直至收敛。最后为加快模型收敛,本文给出一种度量准则,衡量元组对改善模型的贡献,优先选择贡献大的元组进行修改。
最后,本文在 UCI 的公共数据集和某三甲医院的真实医疗数据集上进行实验,以算法收益 BNF 和数据质量损失验证交互式修复方法的有效性,使用准确率、召回率、F-score验证增量更新模型以及选择算法的可行性。实验结果表明,将候选规则集构建为格可以对其有效地剪枝,避免冗余访问,而且本文的搜索算法明显优于传统的遍历算法(BFS和DFS)。与主动学习重新训练模型的方法相比,本文的增量学习算法得到的收敛模型的性能更好。与基于最优标号和次优标号(Best vs. second-best, BvSB)的主动学习方法和随机选择方法相比,本文的选择算法可以加快模型收敛。与典型的基于约束和统计的修复算法相比,本文算法在运行时间和准确性上都有明显优势。
本文研究让用户参与修复过程,由用户主动探索数据,而不是预定义修复规则。研究了Falcon算法,通过泛化用户修改单个元组的动作产生修复更多数据的规则,并与用户交互保证修复的精确性。同时,针对 Falcon 算法过度依赖用户的问题,通过在修复过程中应用主动学习算法,使用获得的高精度收敛分类器代替用户修改元组,减少了用户的工作量。
首先,深入研究了 Falcon 算法,以用户对一条元组的修改为引导,生成一组可能用于修复数据的候选规则集,将其构建为格,并从中选择候选规则由用户验证其有效性。针对 Falcon 不能有效比较格中不同路径中的规则的问题,本文设计了基于数据增益的搜索算法,以验证格中规则带来的数据增益为标准,从格中选择规则与用户交互,由用户验证规则的有效性,快速地提高数据质量。
其次,针对Falcon算法过度依赖用户的问题,在修复过程中引入主动学习框架,使用获得的高精度收敛模型预测属性的更新值,代替用户对元组的修改,从而降低用户的参与成本。首先基于相似度确定发生错误的属性,然后结合共轭梯度的思想提出主动增量学习算法,利用每次迭代中由用户确认正确的一批数据增量地更新基准模型,直至收敛。最后为加快模型收敛,本文给出一种度量准则,衡量元组对改善模型的贡献,优先选择贡献大的元组进行修改。
最后,本文在 UCI 的公共数据集和某三甲医院的真实医疗数据集上进行实验,以算法收益 BNF 和数据质量损失验证交互式修复方法的有效性,使用准确率、召回率、F-score验证增量更新模型以及选择算法的可行性。实验结果表明,将候选规则集构建为格可以对其有效地剪枝,避免冗余访问,而且本文的搜索算法明显优于传统的遍历算法(BFS和DFS)。与主动学习重新训练模型的方法相比,本文的增量学习算法得到的收敛模型的性能更好。与基于最优标号和次优标号(Best vs. second-best, BvSB)的主动学习方法和随机选择方法相比,本文的选择算法可以加快模型收敛。与典型的基于约束和统计的修复算法相比,本文算法在运行时间和准确性上都有明显优势。