论文部分内容阅读
摘要:本文对大数据的六个性质进行深入解读并整理汇总了现阶段各学科对大数据的研究情况。分析了数据信息价值在未来对企业成本和生产资料的影响,通过企业成本成分的变化将大数据时代划分成大数据的初级阶段、大数据的中级阶段和完全大数据阶段这三个阶段。最后对数据产业的未来进行预测。
关键词:大数据;大数据阶段;数据产业
中图分类号:F061.3
文献识别码:A
文章编号:1001-828X(2016)036-000312-02
大数据时代的到来给人们的生活方式、工作方式和思维方式都带来了前所未有的变化,这些变化势必将对现有的经济结构带来影响,本文将对大数据的性质特征进行分析,从企业成本函数开始,分析大数据对于微观经济的影响,继而分析大数据下的宏观经济结构的变化,最后预测部分行业的未来发展。
一、大数据时代正在来临
大数据时代的浪潮正在朝我们涌来。据统计2012年中国数据存储量已经达到364EB,约为日本的60%,北美的7%,预计到2020年,全球数据储存量估计为40ZB,各单位间的计算公式为1024GB=lTB,1024TB=1PB,1024PB=lEB,1024EB=lZB。世界各国各组织已经开始采取措施积极应对,基于大数据的各类学术研究也正在如火如荼的进行中。
(一)世界对大数据的响应
为了迎接大数据时代,联合国在2009年提出”联合国全球脉动“倡议,方便为各国提供实时数据分析。2012年3月,美国政府投资2亿美元启动”大数据研究和发展计划“。2012年7月,日本发布”新ICT计划“,以电子政府、点子医疗、防灾等为中心指定新的信息通讯技术战略。2013年1月美国政府宣布将投资1.89亿英镑用于对地观测一医疗卫生等大数据和节能技术方面。欧盟将数据信息化基础设施建设作为Horizon2020计划优先发展领域5--。
在我国,科技部召开两次香山会议,国家自然科学基金委员会2013年组织了双清论坛,并且设立了教育部重大项目。2013年中旬,全国统计学会召开第17次统计科学讨論会共议大数据背景下的统计发展。从2013年11月份开始,国家统计局与中国联通,阿里巴巴、百度、58同城和上海钢联电子商务股份有限公司等11家企业在北京签订了大数据战略合作框架协议。在2014年第六届中国人民大学国际统计论坛上,中国统计局局长马建堂在致辞中指出“以更加开放的姿态推动大数据共享共赢,大数据应用要共享开放,统一标准,市场推动。”
(二)我国对大数据的研究现状
从2011年开始,各学科对大数据的研究突然兴起。其中,统计学,计算机科学,信息科学,电子商务等学科最为活跃。王珊等学者(2011)分析了大数据分析平台所必须具备的几个重要特征,对当前主流实现平台以及其混合构架进行分析与归纳,指出其优势以及不足;覃雄派等(2012)指出传统及关系数据无法胜任大数据分析的任务,以MapReduce为代表的非关系数据管理技术更能满足面向大数据的深度分析,创新性的提出将关系数据处理技术和分布式处理技术相结合的数据管理技术;李国杰等(2012)通过对大数据研究领域中几个关键问题的科学思考,提出科研第四范式的思维方式的大变革观点,认为未来科技以及经济社会发展应该优先支持网络大数据研究;曾鸿等(2013)阐述了大数据时代下的统计变革,提出构建新的统计理论和分析数据的思维,提出应该积极应对大数据的基本观点,同时指出大数据时代与计算机科学也有着紧密的联系;朱建平等(2014)从统计学的角度界定了大数据的概念,明确统计工作和统计研究转变的基本思路……
综观以上研究,有“三多三少”的特点。研究现实问题的多,研究基础理论的少;研究特点变化的多,研究阶段变化的少;研究经济统计学的多,研究基础经济领域的少。基于这样的研究现状,本文从大数据的时代特点出发,分三个阶段,分析大数据时代下成产函数的成分变化。
二、大数据
近年来对大数据的研究纷繁复杂,公认的大数据的性质有“六个v”,即总量大(Volume Big),多样化(variety),快速化(velocity),价值高(value High),数据获取与发送方式灵活(Vender),真实准确(veraeity)。
(一)大数据的性质
1.总量大
数据总量大,数据计量单位变化,超大规模单位是GB级别数据,海量数据是TB级别,大数据是PB及以上。
大数据也被形象的称为井喷式数据,这说明,现阶段大数据不仅仅只是总量大,数据的增长速度和增长的加速度也在变大,也就是说每天的数据增长量成指数增长。
2.多样化
数据表现形式多样,总共分为三类,即传统的结构化数据,如同HTML,报表,资源库,地理位置这种不规则不完整的半结构化数据,还有视频,图片,图像这类非结构化数据。并且在大数据环境下,半结构化数据和非结构化数据与日俱增,对传统的储存方式提出挑战。
从维度角度看,在大数据时代,我们还需要面临超高维数据的挑战。
从数据类型来看,定距、定比数据量所占比重将被更多的定序、定类数据代替,与之而来的还有可视化实时销售图、销售地图等这种新的数据类型,共同组成大数据时代的多样性数据。
3.快速化
传统统计部门在处理数据时要求做到及时收集和及时发布,而在大数据背景下,政府部门并不是唯一的数据来源部门,采集数据的方式和数据的来源更加多样,同时互联网减少了数据传输的时间,对数据的要求变成实时采集、实时发布,公众获取数据将更加方便快捷。
4.价值高
大数据下数据间的“相关关系”逐渐代替“因果关系”,事物间的联系逐渐变得清晰,仅通过事物间的“相关关系”企业就可以对其产品的营销方案、生产成本进行调整,获得巨大的利润,因此数据挖掘尤显重要,数据的商业价值也随之增大。 5.数据获取与发送方式灵活
大数据下数据并非单纯指统计部门收集的数据,还包括人们在互联网上发布的信息,以及全世界的工业设备、汽车、电表上有无数的数码传感器中的数据,还有随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化数据等都成为数据的来源。随着互联网的发展,许多数据的发布可以做到程序自动发布,同时借助网站,手机,短信等各种客户端,第一时间将数据发布。
6.真实准确
大数据下样本即为总体,对总体的研究从传统的用样本估计总体数量特征,变化为直接计算总体特征,对总体的描述准确性为100%,误差为0,数据更加真实准确。
(二)大数据对现实的挑战
1.数据存储和传输
大数据下,半结构和非结构化数据比例巨大,如何有效快速的储存这些数据,降低数据在传输过程中的损耗,是计算机科学所要面临的难题。
同时数据容量空前增大,加之公众对于数据实时提取以及实时存储的要求,存储频率也随之增大,大数据对于硬件的要求也不断提高。
2.数据塞选和处理
大数据杂乱无章,无统一标准。对“有用信息”的选取,对垃圾信息的处理,都需要对数据的深度挖掘处理,如何从大数据的海洋中提取需要的信息,是对信息科学的挑战。
3.数据的发布和决策
大数据要求数据发布实时同时数据准确,这对数据发布的效率提出了更高的要求。
大数据通过云计算,数据仓库,数据挖掘等方法进行处理分析,使决策依据更为充分。大数据改变传统的“经验决策”方式到更加理性的“数据决策”,但是,由于大数据是对总体的研究,在面对突发事件和小概率事件时,缺乏数据支撑,使得决策不正确,如何解决大数据下的小概率事件,是统计学面临的挑战。
(三)适用于大数据的技术
现有阶段适用于大数据的技术有大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。现介绍几种技术。
针对大数据存储能力和处理速度,先有四种解决方式,分布式处理方式、离线批处理技术、实时流处理技术和交互式分析技术。在此主要介绍分布式架构的代表云计算平台。按照现在的硬件水平,单台的计算机无法及时有效处理大数据,可采用分布式架构,即连接多台计算机共同处理,这就是云计算平台。它的特色在于對海量数据进行分布式数据挖掘,分散数据,同时处理。云计算平台还包括分布式数据库、云存储和虚拟化技术。
关于半结构化数据和非结构化的处理问题,Hadoop大数据处理品台已经是目前大数据平台中应用率最高的技术,可以处理文本、社交媒体订阅以及视频等半结构化和非结构化数据。此外还有EMC Greeplam统一分析平台,IBM Biglnsights大数据分析软件,Informatica HParse数据源处理软件,Informatica 9.1 for Big DataApplicanee大数据机,微软SQL Server R2 Parallel Date Warehouse并行数据仓库等技术,都在为解决此类问题进行实践。
对于数据的实时采集和发布问题,谷歌公司推出的MapReduce扩展技术和NoSQL数据库,融合了关系型数据库和分布式数据库的技术优势包含了几种技术。关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务等。
还有一些研究用Regression Calibration模型校准方法和OLAP联机分析技术对数据进行处理,从理论上证明从大数据中提取有效信息的效率可以进一步提高。
通过这些研究,我们有信心相信在大数据时代下,技术水平完全可以跟上时代的潮流,所有的挑战都可以完成。
三、大数据的三个阶段
从互联网时代到完全大数据时代并不是一蹴而就的,这个过程可以根据企业成本的变化分成大数据初级阶段、大数据中级阶段和完全大数据三个阶段。
1.大数据初级阶段
在大数据初级阶段,数据的获取相对困难,对于数据价值挖掘开始受到重视,以公司集团为代表的数据信息行业正在兴起,计算机科学、信息编码技术以及统计分析领域开始繁荣。在这个阶段,小范围的数据统计和数据处理业务占数据行业的大多数,数据信息的价值逐渐被人们发现,数据开始指导决策,企业成本中的数据信息费用开始出现。
2.大数据中级阶段
在此阶段,数据行业从寡头垄断市场进入垄断竞争市场,数据行业已经相对成熟,一些行业已经形成完整的数据产业链,从原材料的选取、生产、运输、销售和售后服务都采用数据决策,数据将帮助这些企业实现中长期的最小成本。在这个阶段,企业成本中广告的费用急剧减小,运费和资本的价格将降低,数据信息费用占例增大。
3.完全大数据
随着科学技术的发展,数据行业将进入完全竞争状态,获取数据信息将变得十分方便、简单,数据信息的交易价格会因为竞争的激烈而将为最低水平,数据行业完全成熟,各个行业都采用数据决策,整个经济市场将处于完全信息状态,所有企业都可以利用数据达到行业的长期的最小成本。此时,样本即总体成为现实。在这个阶段,企业成本中对于广告、运费、资本和数据信息的费用将降低至最小。
我们现在正处于大数据初级阶段。
四、数据产业发展预测
现如今,电子商务行业如日中天,伴随着程序员行业的兴起,关于网络方面的技术性人才及其紧缺,同时各企业也发现数据挖掘的重要性,统计及其相关行业也面临着人才缺口。这些与大数据初级阶段特点完全符合,在这个阶段,数据行业的增长速度将呈现指数增长特点。随着专业人才的增加,计算机技术的完善,将进入大数据中级阶段,越来越多的人资和投入将使得数据行业的发展进入平稳增长期,数据行业将面临市场半饱和状态,此时的数据行业从原本的J形增长,将变化为s形增长,logistic增长模型将更符合这时的状况。在完全大数据阶段,数据产业将变成完全竞争市场,对于数据的需求和供给将不会发生大波动,在此阶段数据产业已经使得各产业的成本达到最优。
五、结语
大数据给我们带来一系列问题,比如如何处理数据获取和传播阶段的法律纠纷,如何保障大数据时代下的信息安全,统计部门如何制定新的统计分类标准等。大数据时代就在发现问题与解决问题中悄然来临。
将大数据分阶段进行研究有助于各行业各产业制定符合自身的发展规划,有助于对未来发展进行更为精准的阶段性预测。接下来,我们可以深入分析大数据的三个阶段对企业成本函数和生产函数的影响;可以分析不同产业对于数据信息价值的需求变化。这些研究对大数据时代下的经济发展具有基础理论意义。
关键词:大数据;大数据阶段;数据产业
中图分类号:F061.3
文献识别码:A
文章编号:1001-828X(2016)036-000312-02
大数据时代的到来给人们的生活方式、工作方式和思维方式都带来了前所未有的变化,这些变化势必将对现有的经济结构带来影响,本文将对大数据的性质特征进行分析,从企业成本函数开始,分析大数据对于微观经济的影响,继而分析大数据下的宏观经济结构的变化,最后预测部分行业的未来发展。
一、大数据时代正在来临
大数据时代的浪潮正在朝我们涌来。据统计2012年中国数据存储量已经达到364EB,约为日本的60%,北美的7%,预计到2020年,全球数据储存量估计为40ZB,各单位间的计算公式为1024GB=lTB,1024TB=1PB,1024PB=lEB,1024EB=lZB。世界各国各组织已经开始采取措施积极应对,基于大数据的各类学术研究也正在如火如荼的进行中。
(一)世界对大数据的响应
为了迎接大数据时代,联合国在2009年提出”联合国全球脉动“倡议,方便为各国提供实时数据分析。2012年3月,美国政府投资2亿美元启动”大数据研究和发展计划“。2012年7月,日本发布”新ICT计划“,以电子政府、点子医疗、防灾等为中心指定新的信息通讯技术战略。2013年1月美国政府宣布将投资1.89亿英镑用于对地观测一医疗卫生等大数据和节能技术方面。欧盟将数据信息化基础设施建设作为Horizon2020计划优先发展领域5--。
在我国,科技部召开两次香山会议,国家自然科学基金委员会2013年组织了双清论坛,并且设立了教育部重大项目。2013年中旬,全国统计学会召开第17次统计科学讨論会共议大数据背景下的统计发展。从2013年11月份开始,国家统计局与中国联通,阿里巴巴、百度、58同城和上海钢联电子商务股份有限公司等11家企业在北京签订了大数据战略合作框架协议。在2014年第六届中国人民大学国际统计论坛上,中国统计局局长马建堂在致辞中指出“以更加开放的姿态推动大数据共享共赢,大数据应用要共享开放,统一标准,市场推动。”
(二)我国对大数据的研究现状
从2011年开始,各学科对大数据的研究突然兴起。其中,统计学,计算机科学,信息科学,电子商务等学科最为活跃。王珊等学者(2011)分析了大数据分析平台所必须具备的几个重要特征,对当前主流实现平台以及其混合构架进行分析与归纳,指出其优势以及不足;覃雄派等(2012)指出传统及关系数据无法胜任大数据分析的任务,以MapReduce为代表的非关系数据管理技术更能满足面向大数据的深度分析,创新性的提出将关系数据处理技术和分布式处理技术相结合的数据管理技术;李国杰等(2012)通过对大数据研究领域中几个关键问题的科学思考,提出科研第四范式的思维方式的大变革观点,认为未来科技以及经济社会发展应该优先支持网络大数据研究;曾鸿等(2013)阐述了大数据时代下的统计变革,提出构建新的统计理论和分析数据的思维,提出应该积极应对大数据的基本观点,同时指出大数据时代与计算机科学也有着紧密的联系;朱建平等(2014)从统计学的角度界定了大数据的概念,明确统计工作和统计研究转变的基本思路……
综观以上研究,有“三多三少”的特点。研究现实问题的多,研究基础理论的少;研究特点变化的多,研究阶段变化的少;研究经济统计学的多,研究基础经济领域的少。基于这样的研究现状,本文从大数据的时代特点出发,分三个阶段,分析大数据时代下成产函数的成分变化。
二、大数据
近年来对大数据的研究纷繁复杂,公认的大数据的性质有“六个v”,即总量大(Volume Big),多样化(variety),快速化(velocity),价值高(value High),数据获取与发送方式灵活(Vender),真实准确(veraeity)。
(一)大数据的性质
1.总量大
数据总量大,数据计量单位变化,超大规模单位是GB级别数据,海量数据是TB级别,大数据是PB及以上。
大数据也被形象的称为井喷式数据,这说明,现阶段大数据不仅仅只是总量大,数据的增长速度和增长的加速度也在变大,也就是说每天的数据增长量成指数增长。
2.多样化
数据表现形式多样,总共分为三类,即传统的结构化数据,如同HTML,报表,资源库,地理位置这种不规则不完整的半结构化数据,还有视频,图片,图像这类非结构化数据。并且在大数据环境下,半结构化数据和非结构化数据与日俱增,对传统的储存方式提出挑战。
从维度角度看,在大数据时代,我们还需要面临超高维数据的挑战。
从数据类型来看,定距、定比数据量所占比重将被更多的定序、定类数据代替,与之而来的还有可视化实时销售图、销售地图等这种新的数据类型,共同组成大数据时代的多样性数据。
3.快速化
传统统计部门在处理数据时要求做到及时收集和及时发布,而在大数据背景下,政府部门并不是唯一的数据来源部门,采集数据的方式和数据的来源更加多样,同时互联网减少了数据传输的时间,对数据的要求变成实时采集、实时发布,公众获取数据将更加方便快捷。
4.价值高
大数据下数据间的“相关关系”逐渐代替“因果关系”,事物间的联系逐渐变得清晰,仅通过事物间的“相关关系”企业就可以对其产品的营销方案、生产成本进行调整,获得巨大的利润,因此数据挖掘尤显重要,数据的商业价值也随之增大。 5.数据获取与发送方式灵活
大数据下数据并非单纯指统计部门收集的数据,还包括人们在互联网上发布的信息,以及全世界的工业设备、汽车、电表上有无数的数码传感器中的数据,还有随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化数据等都成为数据的来源。随着互联网的发展,许多数据的发布可以做到程序自动发布,同时借助网站,手机,短信等各种客户端,第一时间将数据发布。
6.真实准确
大数据下样本即为总体,对总体的研究从传统的用样本估计总体数量特征,变化为直接计算总体特征,对总体的描述准确性为100%,误差为0,数据更加真实准确。
(二)大数据对现实的挑战
1.数据存储和传输
大数据下,半结构和非结构化数据比例巨大,如何有效快速的储存这些数据,降低数据在传输过程中的损耗,是计算机科学所要面临的难题。
同时数据容量空前增大,加之公众对于数据实时提取以及实时存储的要求,存储频率也随之增大,大数据对于硬件的要求也不断提高。
2.数据塞选和处理
大数据杂乱无章,无统一标准。对“有用信息”的选取,对垃圾信息的处理,都需要对数据的深度挖掘处理,如何从大数据的海洋中提取需要的信息,是对信息科学的挑战。
3.数据的发布和决策
大数据要求数据发布实时同时数据准确,这对数据发布的效率提出了更高的要求。
大数据通过云计算,数据仓库,数据挖掘等方法进行处理分析,使决策依据更为充分。大数据改变传统的“经验决策”方式到更加理性的“数据决策”,但是,由于大数据是对总体的研究,在面对突发事件和小概率事件时,缺乏数据支撑,使得决策不正确,如何解决大数据下的小概率事件,是统计学面临的挑战。
(三)适用于大数据的技术
现有阶段适用于大数据的技术有大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。现介绍几种技术。
针对大数据存储能力和处理速度,先有四种解决方式,分布式处理方式、离线批处理技术、实时流处理技术和交互式分析技术。在此主要介绍分布式架构的代表云计算平台。按照现在的硬件水平,单台的计算机无法及时有效处理大数据,可采用分布式架构,即连接多台计算机共同处理,这就是云计算平台。它的特色在于對海量数据进行分布式数据挖掘,分散数据,同时处理。云计算平台还包括分布式数据库、云存储和虚拟化技术。
关于半结构化数据和非结构化的处理问题,Hadoop大数据处理品台已经是目前大数据平台中应用率最高的技术,可以处理文本、社交媒体订阅以及视频等半结构化和非结构化数据。此外还有EMC Greeplam统一分析平台,IBM Biglnsights大数据分析软件,Informatica HParse数据源处理软件,Informatica 9.1 for Big DataApplicanee大数据机,微软SQL Server R2 Parallel Date Warehouse并行数据仓库等技术,都在为解决此类问题进行实践。
对于数据的实时采集和发布问题,谷歌公司推出的MapReduce扩展技术和NoSQL数据库,融合了关系型数据库和分布式数据库的技术优势包含了几种技术。关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务等。
还有一些研究用Regression Calibration模型校准方法和OLAP联机分析技术对数据进行处理,从理论上证明从大数据中提取有效信息的效率可以进一步提高。
通过这些研究,我们有信心相信在大数据时代下,技术水平完全可以跟上时代的潮流,所有的挑战都可以完成。
三、大数据的三个阶段
从互联网时代到完全大数据时代并不是一蹴而就的,这个过程可以根据企业成本的变化分成大数据初级阶段、大数据中级阶段和完全大数据三个阶段。
1.大数据初级阶段
在大数据初级阶段,数据的获取相对困难,对于数据价值挖掘开始受到重视,以公司集团为代表的数据信息行业正在兴起,计算机科学、信息编码技术以及统计分析领域开始繁荣。在这个阶段,小范围的数据统计和数据处理业务占数据行业的大多数,数据信息的价值逐渐被人们发现,数据开始指导决策,企业成本中的数据信息费用开始出现。
2.大数据中级阶段
在此阶段,数据行业从寡头垄断市场进入垄断竞争市场,数据行业已经相对成熟,一些行业已经形成完整的数据产业链,从原材料的选取、生产、运输、销售和售后服务都采用数据决策,数据将帮助这些企业实现中长期的最小成本。在这个阶段,企业成本中广告的费用急剧减小,运费和资本的价格将降低,数据信息费用占例增大。
3.完全大数据
随着科学技术的发展,数据行业将进入完全竞争状态,获取数据信息将变得十分方便、简单,数据信息的交易价格会因为竞争的激烈而将为最低水平,数据行业完全成熟,各个行业都采用数据决策,整个经济市场将处于完全信息状态,所有企业都可以利用数据达到行业的长期的最小成本。此时,样本即总体成为现实。在这个阶段,企业成本中对于广告、运费、资本和数据信息的费用将降低至最小。
我们现在正处于大数据初级阶段。
四、数据产业发展预测
现如今,电子商务行业如日中天,伴随着程序员行业的兴起,关于网络方面的技术性人才及其紧缺,同时各企业也发现数据挖掘的重要性,统计及其相关行业也面临着人才缺口。这些与大数据初级阶段特点完全符合,在这个阶段,数据行业的增长速度将呈现指数增长特点。随着专业人才的增加,计算机技术的完善,将进入大数据中级阶段,越来越多的人资和投入将使得数据行业的发展进入平稳增长期,数据行业将面临市场半饱和状态,此时的数据行业从原本的J形增长,将变化为s形增长,logistic增长模型将更符合这时的状况。在完全大数据阶段,数据产业将变成完全竞争市场,对于数据的需求和供给将不会发生大波动,在此阶段数据产业已经使得各产业的成本达到最优。
五、结语
大数据给我们带来一系列问题,比如如何处理数据获取和传播阶段的法律纠纷,如何保障大数据时代下的信息安全,统计部门如何制定新的统计分类标准等。大数据时代就在发现问题与解决问题中悄然来临。
将大数据分阶段进行研究有助于各行业各产业制定符合自身的发展规划,有助于对未来发展进行更为精准的阶段性预测。接下来,我们可以深入分析大数据的三个阶段对企业成本函数和生产函数的影响;可以分析不同产业对于数据信息价值的需求变化。这些研究对大数据时代下的经济发展具有基础理论意义。