论文部分内容阅读
摘 要:在大数据背景下,数据的储存从传统的结构化数据向半结构化数据、非结构化数据转变,同时,数据的规模也迅速扩大。这对数据的挖掘、储存、统计提出了更高的要求。通过对大数据相关概念、大数据特点以及大数据的应用进行分析,进而讨论了大数据对计算科学中数据储存、信息安全和数据挖掘的促进作用以及大数据对经济统计中总体、样本冲突以及质与量的矛盾。最后分析了大数据背景下计算科学与经济统计之间的融合。
关键词:大数据;计算科学;经济统计
前言
伴随着现代测量和传输设备的发展及应用,数据形式逐渐从过去单一的传统结构化数据向半结构化数据、非结构化数据共存形式的复杂数据演变。而互联网技术,尤其是终端移动互联网技术的应用使得大众有了随时随地感知、上传分享、捕获这些半结构化及非结构化数据的平台。大数据概念也由此被人所提及并因此在商贸经济、医疗卫生、气象科研领域均有应用。但不论大数据应用在何种领域,其关键是数据的挖掘和数据的统计工作。而计算科学的应用可以极大的提高在数据挖掘和数据统计工作中的效率。以大数据为视角,对计算科学与经济统计的融合及应用进行分析,有助于大数据在日后经济统计分析领域中的应用。
一、大数据相关概念及应用现状
“大数据”这一概念,最初是由托勒夫于1980年提出的。其中,“大”并不是表明这个数据的具体数量级,而是一个相对的概念。即表征现在所获得的数据较之前的数据在规模上、形式上、获得渠道和速度以及信息的价值上都是巨大的。麦肯锡咨询公司将大数据定义为不能在短时间内通过使用传统的数据库进行数据收集、管理保存并进行分析的数据;维基百科将大数据定义为具有庞大的资料规模导致现有的数据分析软件工具无法进行分析并为决策者提供一定的参考信息的数据。相比于传统的数据,大数据的分析方法具有可视化、数据挖掘算法、语义引擎、预测性分析能力和质量管理五个方面的特点。可视化是大数据分析的基础。通过可视化分析的应用可以使数据能够以一种直观的图表形式展现在用户面前,进而使得用户可以通过直观的对比不同的图表分析数据背后的意义及关联性。数据挖掘算法是进行大数据分析的核心。在海量的数据信息面前,只有通过应用统计学才能深入数据内部挖掘出有用的信息。因此,数据挖掘算法的快慢将直接影响着大数据的应用效率。语义引擎是大数据使用互联网的基础。通过语义引擎的使用分析用户在互联网搜索的关键词,进而达到分析用户意图的目的。预测性分析能力是指可以通过现有的大数据的使用建立数学模型以对未来数据的变化进行预测。质量管理是指大数据可以保证数据的来源是真实有效的,是可以进行科学研究分析的。
目前,各个学科、各个领域的专家均对大数据有了一定的研究。例如在商贸经济领域中,通过对消费者的日常生活数据进行收集、比对,进而可以分析出消费者的消费偏好,以促进营销者进行精准营销。而在气象科研领域,通过大数据的应用,可以获得世界各地的实时天气信息进而可以提高对未来天气的预报准确度。在经济统计领域中,李国杰等人在进行大数据分析时,通过定义第四范式这一概念,提出在未来的经济社会发展中应该注重对网络大数据的分析及应用;朱建平等人以统计学为视角对大数据进行了定义并提出了在大数据背景下的统计工作思路的转变;曾鸿等人也分析了大数据背景下对统计的影响。在计算科学领域,谭雄派等人分析了传统数据库应用大数据时的局限性,进而讨论了关系数据、非关系数据管理技术。
二、大数据对计算科学与经济统计的影响
随着大数据在互联网技术的策动下蓬勃发展,由于其全新的数据格式、巨大的数据规模以及对数据分析提出的更高要求,对计算科学和经济统计来说,是一次挑战。但应该注意到正是由于大数据对数据规模要求的提高,也对计算科学和经济统计的发展起到了反馈带动机制。因此可以说大数据的发展和应用对计算科学和经济统计不仅仅是挑战,更是机遇。
(一)大数据对计算科学的影响
大数据的发展对计算科学在数据计算上提出了更高的要求。首先,大数据的发展带动了数据量和储存技术的进步。由于大数据的数据规模大、数据格式复杂的特点使得过去传统的数据储存技术难以满足其需求。且传统的数据储存技术是通过将数据保存在一个特定的服务器上完成数据储存的。这就造成了使用过去的方式储存大数据时不但储存空间多,且调阅数据效率低的问题。也正是由于大数据对新的储存技术的要求,云存储技术应运而生。其次,大数据对信息安全也起到促进的作用。但同时要注意到,虽然云存储技术解决了大数据的储存和调阅问题,但由于大量信息上传导致了信息安全性的降低。对个人来说,这增加了泄露个人隐私的风险;对国家来说,这将导致国防安全的威胁。例如,斯诺登事件就是这种信息泄露的重要举证。第三,大数据对数据挖掘技术提出了更高的要求。由于大数据中存在着各种存储形式、各种类型的数据,使得在提取有效数据时越来越依靠数据挖掘技术。而目前的数据挖掘技术和软件仅能提取规模较小的结构化数据。这就要求在计算科学领域中不断优化数据挖掘的算法。
(二)大数据对经济统计的影响
首先,大数据造成了总体与样本的冲突。传统的经济统计中总是先对一个总体中分类选取不同的样本,然后进行统计分析。但随着大数据的应用,使得所获得的数据就是总体。这就导致了样本这一概念看似在大数据中已经被淘汰了。但需要注意的是大数据虽然掌握了大量的信息,但总有信息是无法掌握的。例如在股票市场中,大数据永远无法掌握未来的股价走势。而且,统计大数据中所有的信息是需要成本的。虽然总体已经摆在统计者面前,但受制于时间成本和经济成本,还是需要在总体中选取一定的样本。其次,大数据还造成了数据的质与量的冲突。由于大数据以半结构化和非结构化信息为主,造成了大数据信息质量的降低,进而影响了经济统计结果。因此,这就对经济统计中数据可信度分析方法的提高和数据修正手段的丰富。
三、大数据背景下计算科学与经济统计的融合
通過对大数据影响下的计算科学与经济统计进行讨论,可以看出大数据是一种思维方式。首先,大数据的发展需要统计学基础。由于大数据的最终目的就是对数据进行分析。而且,大数据导致数据整齐度下降、准确性降低、运算量增大。这就要求在传统的经济统计学方法上不断进行改进,尤其是对不同类型的数据进行标准化运算、偏差数据的修正进行改进。同时,为了应对庞大的数据规模,还要求经济统计与计算科学相融合。即在数据的收集到数据的可视化以及数据挖掘、分析和预测过程中,借助计算科学与经济统计方法,通过计算科学对算法的更新,简化计算量以应对复杂的统计数据。综合来看,就是大数据对计算科学的发展提出要求,经济统计为大数据提供基础,计算科学为大数据和经济统计提供技术支持。其次,大数据还需要信息的编码技术促进物联网的发展。例如,目前对于一台笔记本的信息记录,主要是记录显示器、硬盘、内存等信息。但是在大数据的基础上,通过编码技术的革新,还可以对笔记本的材质、生产厂家和生产时间进行记录。而这种技术还将应用于其他任何物品,进而将所有物品建立起互有联系的信息物联网。
参考文献:
[1]:李国杰、程学旗.大数据研究:未来经济社会发展的重大战略领域[J].中国科学院院刊,2012.
[2]:覃雄派、王会举、杜小勇.大数据分析—RDBMS与MapReduce的竞争与共生[J].软件学报,2012.
[3]:朱建平、章贵军、刘小薇.大数据时代下数据分析理念的辨析[J].统计研究,2014.
[4]:曾鸿、丰敏轩.大数据与统计变革[J].中国统计,2013.
作者简介:
潘航(1985.02-):女,满族,辽宁凤城人,大学本科学历,联动优势科技有限公司,高级数据分析师,主要从事大数据分析工作。
关键词:大数据;计算科学;经济统计
前言
伴随着现代测量和传输设备的发展及应用,数据形式逐渐从过去单一的传统结构化数据向半结构化数据、非结构化数据共存形式的复杂数据演变。而互联网技术,尤其是终端移动互联网技术的应用使得大众有了随时随地感知、上传分享、捕获这些半结构化及非结构化数据的平台。大数据概念也由此被人所提及并因此在商贸经济、医疗卫生、气象科研领域均有应用。但不论大数据应用在何种领域,其关键是数据的挖掘和数据的统计工作。而计算科学的应用可以极大的提高在数据挖掘和数据统计工作中的效率。以大数据为视角,对计算科学与经济统计的融合及应用进行分析,有助于大数据在日后经济统计分析领域中的应用。
一、大数据相关概念及应用现状
“大数据”这一概念,最初是由托勒夫于1980年提出的。其中,“大”并不是表明这个数据的具体数量级,而是一个相对的概念。即表征现在所获得的数据较之前的数据在规模上、形式上、获得渠道和速度以及信息的价值上都是巨大的。麦肯锡咨询公司将大数据定义为不能在短时间内通过使用传统的数据库进行数据收集、管理保存并进行分析的数据;维基百科将大数据定义为具有庞大的资料规模导致现有的数据分析软件工具无法进行分析并为决策者提供一定的参考信息的数据。相比于传统的数据,大数据的分析方法具有可视化、数据挖掘算法、语义引擎、预测性分析能力和质量管理五个方面的特点。可视化是大数据分析的基础。通过可视化分析的应用可以使数据能够以一种直观的图表形式展现在用户面前,进而使得用户可以通过直观的对比不同的图表分析数据背后的意义及关联性。数据挖掘算法是进行大数据分析的核心。在海量的数据信息面前,只有通过应用统计学才能深入数据内部挖掘出有用的信息。因此,数据挖掘算法的快慢将直接影响着大数据的应用效率。语义引擎是大数据使用互联网的基础。通过语义引擎的使用分析用户在互联网搜索的关键词,进而达到分析用户意图的目的。预测性分析能力是指可以通过现有的大数据的使用建立数学模型以对未来数据的变化进行预测。质量管理是指大数据可以保证数据的来源是真实有效的,是可以进行科学研究分析的。
目前,各个学科、各个领域的专家均对大数据有了一定的研究。例如在商贸经济领域中,通过对消费者的日常生活数据进行收集、比对,进而可以分析出消费者的消费偏好,以促进营销者进行精准营销。而在气象科研领域,通过大数据的应用,可以获得世界各地的实时天气信息进而可以提高对未来天气的预报准确度。在经济统计领域中,李国杰等人在进行大数据分析时,通过定义第四范式这一概念,提出在未来的经济社会发展中应该注重对网络大数据的分析及应用;朱建平等人以统计学为视角对大数据进行了定义并提出了在大数据背景下的统计工作思路的转变;曾鸿等人也分析了大数据背景下对统计的影响。在计算科学领域,谭雄派等人分析了传统数据库应用大数据时的局限性,进而讨论了关系数据、非关系数据管理技术。
二、大数据对计算科学与经济统计的影响
随着大数据在互联网技术的策动下蓬勃发展,由于其全新的数据格式、巨大的数据规模以及对数据分析提出的更高要求,对计算科学和经济统计来说,是一次挑战。但应该注意到正是由于大数据对数据规模要求的提高,也对计算科学和经济统计的发展起到了反馈带动机制。因此可以说大数据的发展和应用对计算科学和经济统计不仅仅是挑战,更是机遇。
(一)大数据对计算科学的影响
大数据的发展对计算科学在数据计算上提出了更高的要求。首先,大数据的发展带动了数据量和储存技术的进步。由于大数据的数据规模大、数据格式复杂的特点使得过去传统的数据储存技术难以满足其需求。且传统的数据储存技术是通过将数据保存在一个特定的服务器上完成数据储存的。这就造成了使用过去的方式储存大数据时不但储存空间多,且调阅数据效率低的问题。也正是由于大数据对新的储存技术的要求,云存储技术应运而生。其次,大数据对信息安全也起到促进的作用。但同时要注意到,虽然云存储技术解决了大数据的储存和调阅问题,但由于大量信息上传导致了信息安全性的降低。对个人来说,这增加了泄露个人隐私的风险;对国家来说,这将导致国防安全的威胁。例如,斯诺登事件就是这种信息泄露的重要举证。第三,大数据对数据挖掘技术提出了更高的要求。由于大数据中存在着各种存储形式、各种类型的数据,使得在提取有效数据时越来越依靠数据挖掘技术。而目前的数据挖掘技术和软件仅能提取规模较小的结构化数据。这就要求在计算科学领域中不断优化数据挖掘的算法。
(二)大数据对经济统计的影响
首先,大数据造成了总体与样本的冲突。传统的经济统计中总是先对一个总体中分类选取不同的样本,然后进行统计分析。但随着大数据的应用,使得所获得的数据就是总体。这就导致了样本这一概念看似在大数据中已经被淘汰了。但需要注意的是大数据虽然掌握了大量的信息,但总有信息是无法掌握的。例如在股票市场中,大数据永远无法掌握未来的股价走势。而且,统计大数据中所有的信息是需要成本的。虽然总体已经摆在统计者面前,但受制于时间成本和经济成本,还是需要在总体中选取一定的样本。其次,大数据还造成了数据的质与量的冲突。由于大数据以半结构化和非结构化信息为主,造成了大数据信息质量的降低,进而影响了经济统计结果。因此,这就对经济统计中数据可信度分析方法的提高和数据修正手段的丰富。
三、大数据背景下计算科学与经济统计的融合
通過对大数据影响下的计算科学与经济统计进行讨论,可以看出大数据是一种思维方式。首先,大数据的发展需要统计学基础。由于大数据的最终目的就是对数据进行分析。而且,大数据导致数据整齐度下降、准确性降低、运算量增大。这就要求在传统的经济统计学方法上不断进行改进,尤其是对不同类型的数据进行标准化运算、偏差数据的修正进行改进。同时,为了应对庞大的数据规模,还要求经济统计与计算科学相融合。即在数据的收集到数据的可视化以及数据挖掘、分析和预测过程中,借助计算科学与经济统计方法,通过计算科学对算法的更新,简化计算量以应对复杂的统计数据。综合来看,就是大数据对计算科学的发展提出要求,经济统计为大数据提供基础,计算科学为大数据和经济统计提供技术支持。其次,大数据还需要信息的编码技术促进物联网的发展。例如,目前对于一台笔记本的信息记录,主要是记录显示器、硬盘、内存等信息。但是在大数据的基础上,通过编码技术的革新,还可以对笔记本的材质、生产厂家和生产时间进行记录。而这种技术还将应用于其他任何物品,进而将所有物品建立起互有联系的信息物联网。
参考文献:
[1]:李国杰、程学旗.大数据研究:未来经济社会发展的重大战略领域[J].中国科学院院刊,2012.
[2]:覃雄派、王会举、杜小勇.大数据分析—RDBMS与MapReduce的竞争与共生[J].软件学报,2012.
[3]:朱建平、章贵军、刘小薇.大数据时代下数据分析理念的辨析[J].统计研究,2014.
[4]:曾鸿、丰敏轩.大数据与统计变革[J].中国统计,2013.
作者简介:
潘航(1985.02-):女,满族,辽宁凤城人,大学本科学历,联动优势科技有限公司,高级数据分析师,主要从事大数据分析工作。