面向农业领域知识库构建的数据清洗方法优化研究

来源 :中国农业科学院 | 被引量 : 0次 | 上传用户：jacklee12345678

【摘要】

：

大数据时代,数据的意义在于对其进行专业化处理。数据质量成为数据挖掘、专家决策、商业智能等活动成功的关键。但是,迅速膨胀并变大的数据量妨碍了清洗数据的效率,使得漫长

【作者】

：

盛丹丹

【机构】

：

中国农业科学院

【出处】

：

中国农业科学院

【发表日期】

：

2016年期

【关键词】

：

农业领域知识库数据清洗数据匹配框架流程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据时代,数据的意义在于对其进行专业化处理。数据质量成为数据挖掘、专家决策、商业智能等活动成功的关键。但是,迅速膨胀并变大的数据量妨碍了清洗数据的效率,使得漫长低效的人工清洗变得不可能。因此,提高数据清洗的自动化程度和时间效率势在必行。同时,科学研究进入数据密集型的第四范式,要在时代的浪潮中更好地驾驭第四范式,必须科学地管理数据,并在数据互操作中游刃有余。建立领域知识库是目前各界都在积极探索的方式。在政策的引导和支持下,各类农业服务平台和信息资源激增,构建面向农业领域的知识库,能系统有效地收集和整理农业领域信息和知识,将大量隐含知识编码化和数字化,实现海量农业领域知识有序化,便于对其进行有效组织、检索、利用、分析和共享。要实现农业领域知识库的功能和目标,就必须在构建知识库时对数据进行自动化清洗,以保证数据质量,提高处理效率。目前领域知识的数据清洗方法多是由专家制订规则并由计算机自动执行来完成,这种方法固然准确,但需要领域专家参与,并反复修改与更新规则集合,在数据量很大、数据规律不明显的情况下存在局限性。而且,面对不同数据集都要重新制定规则,人工劳动非常大。同时,现有的清洗框架和流程都是按照数据仓库构建要求制定的,大多是基于规则的,在面对农业领域知识库构建时,会有些不适用。而且,多种数据清洗方法彼此孤立,各自为营,并没有一个用于指导构建知识库时针对领域知识的框架和流程,使人在面临众多方法和工具时不知所措。众多的工具各有侧重,并不能完全解决构建知识库时遇到的数据清洗问题。因此,本文对这些问题进行探索,对比分析了数据清洗工具和处于数据清洗核心地位的数据匹配算法,为优化算法的选择提供参考；设计了一个通用的数据清洗框架和流程,指导农业领域知识库构建中的数据清洗工作；采用水稻领域的文献数据进行实证,设计了优化算法来解决作者机构匹配问题；最后讨论了阈值的设定对结果的影响,为今后工作中阈值的选择提供参考。通过这些研究将人工参与程度降低,进而提高数据清洗的自动化程度和效率。

其他文献

民生档案信息服务研究

“关注民生，改善民生”成为当今时代主题，在社会转型政府对民生管理的整体趋势影响，档案部门本身寻求发展以及突破现实压力，和公众对民生信息的渴望需求等诸多社会因素的影响下，民

学位

社会转型政府民生档案信息服务

刍议初中物理教学初中生实验能力的培养

初中物理实验是学生认识物理概念、规律的基础，它对激发学生的学习兴趣，培养学生的创新能力和实践能力有着重要作用。培养学生的物理实验能力是初中物理教学的一个重要目的。课

期刊

刍议初中物理教学初中生物理实验能力培养学生创新能力以实验为基础学生整体素质学生的潜能教育的过程学习兴趣学生认识物理概念实践能力如何培

河北省医院图书馆提供循证医学信息服务的调查研究

医院图书馆提供的循证医学信息服务是以“临床医学图书馆员”的服务形式为基础发展而来。在循证医学环境下,它的工作核心是围绕研究证据的检索和评价进行的。进行循证医学信

学位

论信息低保制度——以公共图书馆为平台的公民基本信息保障制度研究

本研究有坚实的理论基础。理论基础主要由三大部分组成:一是公民的信息权利理论;二是信息公平理论;三是公共图书馆制度理论。具体而言,本研究的理论先导也是正在广为接受的图

学位

公共图书馆公民权益信息服务低保制度

混凝土施工质量评定系统软件设计及应用

随着信息技术、互联网技术、物联网技术等高新技术的快速发展,大藤峡水利枢纽工程混凝土施工全过程的施工质量实时管控成为可能.本项目应用前沿尖端信息技术手段,通过自动采

期刊

混凝土数字化智能化

谈高三物理复习

高三复习迎考的普遍做法--＂三轮复习＂法。第一轮复习按课本章节顺序复习整理知识点，第二轮复习就高中物理的重点、难点进行小专题复习，第三轮复习则安排综合练习、模拟训练。其中

期刊

一轮复习小专题复习第二轮复习帮助学生梳理知识师生互动三轮模拟训练课堂上教学策略教师高中物理知识点整理学习倾向练习课本高考

小学科学要如何学习

小学阶段，儿童对周围世界有着强烈的好奇心和探究欲望，他们乐于动手操作具体形象的物体，这一时期是培养科学兴趣、体验科学过程、发展科学精神的重要时期。《科学课程标准》中指

期刊

小学科学科学学习科学课教学学习方式学生周围世界学习科学学习活动小学阶段体验实践能力课程改革课程标准科学兴趣科学精神科学过程个性潜

家具出口晴雨表

广东今年1-2月,经广东口岸出口家具333.3亿元人民币(下同),同比(下同)增长30.6%;其中,2月出口146.3亿元,同比增长114倍,创去年以来同比最大增幅,环比下降21.8%。一般贸易出口

期刊

出口家具环比上经木材价格出口贸易同比民营企业出口出口竞争力出口产品质量环保家具

新媒体时代下网络热点事件情感传播特征与引导研究——以“上海警察绊摔小孩事件”为例

互联网时代下的今天，网络受众群体的关注度发生转移，老媒体在传播上的优势持续减弱，新媒体影响力却在不断扩大，蓬勃发展。社交化的流行催生出了各类自媒体平台，如官方微博、微信公

学位

新媒体时代网络热点事件情感传播特征

基于用户兴趣的P2P搜索机制研究

P2P网络技术的发展和网络资源的增长不仅给用户在搜索、定位和获取信息资源上带来了巨大的困难,也越来越无法满足用户的个性化需求。基于P2P搜索引擎的搜索范围理论上将包括

学位

P2P用户兴趣个性化搜索引擎查询扩展

面向农业领域知识库构建的数据清洗方法优化研究

其他学术论文