论文部分内容阅读
大数据时代,数据的意义在于对其进行专业化处理。数据质量成为数据挖掘、专家决策、商业智能等活动成功的关键。但是,迅速膨胀并变大的数据量妨碍了清洗数据的效率,使得漫长低效的人工清洗变得不可能。因此,提高数据清洗的自动化程度和时间效率势在必行。同时,科学研究进入数据密集型的第四范式,要在时代的浪潮中更好地驾驭第四范式,必须科学地管理数据,并在数据互操作中游刃有余。建立领域知识库是目前各界都在积极探索的方式。在政策的引导和支持下,各类农业服务平台和信息资源激增,构建面向农业领域的知识库,能系统有效地收集和整理农业领域信息和知识,将大量隐含知识编码化和数字化,实现海量农业领域知识有序化,便于对其进行有效组织、检索、利用、分析和共享。要实现农业领域知识库的功能和目标,就必须在构建知识库时对数据进行自动化清洗,以保证数据质量,提高处理效率。目前领域知识的数据清洗方法多是由专家制订规则并由计算机自动执行来完成,这种方法固然准确,但需要领域专家参与,并反复修改与更新规则集合,在数据量很大、数据规律不明显的情况下存在局限性。而且,面对不同数据集都要重新制定规则,人工劳动非常大。同时,现有的清洗框架和流程都是按照数据仓库构建要求制定的,大多是基于规则的,在面对农业领域知识库构建时,会有些不适用。而且,多种数据清洗方法彼此孤立,各自为营,并没有一个用于指导构建知识库时针对领域知识的框架和流程,使人在面临众多方法和工具时不知所措。众多的工具各有侧重,并不能完全解决构建知识库时遇到的数据清洗问题。因此,本文对这些问题进行探索,对比分析了数据清洗工具和处于数据清洗核心地位的数据匹配算法,为优化算法的选择提供参考;设计了一个通用的数据清洗框架和流程,指导农业领域知识库构建中的数据清洗工作;采用水稻领域的文献数据进行实证,设计了优化算法来解决作者机构匹配问题;最后讨论了阈值的设定对结果的影响,为今后工作中阈值的选择提供参考。通过这些研究将人工参与程度降低,进而提高数据清洗的自动化程度和效率。