面向农业领域知识库构建的数据清洗方法优化研究

来源 :中国农业科学院 | 被引量 : 0次 | 上传用户:jacklee12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据的意义在于对其进行专业化处理。数据质量成为数据挖掘、专家决策、商业智能等活动成功的关键。但是,迅速膨胀并变大的数据量妨碍了清洗数据的效率,使得漫长低效的人工清洗变得不可能。因此,提高数据清洗的自动化程度和时间效率势在必行。同时,科学研究进入数据密集型的第四范式,要在时代的浪潮中更好地驾驭第四范式,必须科学地管理数据,并在数据互操作中游刃有余。建立领域知识库是目前各界都在积极探索的方式。在政策的引导和支持下,各类农业服务平台和信息资源激增,构建面向农业领域的知识库,能系统有效地收集和整理农业领域信息和知识,将大量隐含知识编码化和数字化,实现海量农业领域知识有序化,便于对其进行有效组织、检索、利用、分析和共享。要实现农业领域知识库的功能和目标,就必须在构建知识库时对数据进行自动化清洗,以保证数据质量,提高处理效率。目前领域知识的数据清洗方法多是由专家制订规则并由计算机自动执行来完成,这种方法固然准确,但需要领域专家参与,并反复修改与更新规则集合,在数据量很大、数据规律不明显的情况下存在局限性。而且,面对不同数据集都要重新制定规则,人工劳动非常大。同时,现有的清洗框架和流程都是按照数据仓库构建要求制定的,大多是基于规则的,在面对农业领域知识库构建时,会有些不适用。而且,多种数据清洗方法彼此孤立,各自为营,并没有一个用于指导构建知识库时针对领域知识的框架和流程,使人在面临众多方法和工具时不知所措。众多的工具各有侧重,并不能完全解决构建知识库时遇到的数据清洗问题。因此,本文对这些问题进行探索,对比分析了数据清洗工具和处于数据清洗核心地位的数据匹配算法,为优化算法的选择提供参考;设计了一个通用的数据清洗框架和流程,指导农业领域知识库构建中的数据清洗工作;采用水稻领域的文献数据进行实证,设计了优化算法来解决作者机构匹配问题;最后讨论了阈值的设定对结果的影响,为今后工作中阈值的选择提供参考。通过这些研究将人工参与程度降低,进而提高数据清洗的自动化程度和效率。
其他文献
随着信息技术、互联网技术、物联网技术等高新技术的快速发展,大藤峡水利枢纽工程混凝土施工全过程的施工质量实时管控成为可能.本项目应用前沿尖端信息技术手段,通过自动采
高三复习迎考的普遍做法--"三轮复习"法。第一轮复习按课本章节顺序复习整理知识点,第二轮复习就高中物理的重点、难点进行小专题复习,第三轮复习则安排综合练习、模拟训练。其中
互联网时代下的今天,网络受众群体的关注度发生转移,老媒体在传播上的优势持续减弱,新媒体影响力却在不断扩大,蓬勃发展。社交化的流行催生出了各类自媒体平台,如官方微博、微信公
P2P网络技术的发展和网络资源的增长不仅给用户在搜索、定位和获取信息资源上带来了巨大的困难,也越来越无法满足用户的个性化需求。基于P2P搜索引擎的搜索范围理论上将包括