质疑大数据

来源 :计算机世界 | 被引量 : 0次 | 上传用户:yfs245324210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据,无疑是今年IT业内最热的词。厂商热推,媒体热炒。不谈大数据,不推大数据,不用大数据,仿佛就没有了未来。
  “大数据热”源于2010年哈佛大学教授维克托·舍恩伯格的专著《大数据时代:生活、工作与思维的大变革》。他在书中断言:大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。
  大数据在3年的实践中,人们对它的认知不断深化。时至今日,我们终于见到了对大数据最为严肃和理性的质疑。这些严肃而非炒作性质的质疑总体上来自理论和实践两个层面。
  在理论层面,最为专业的质疑来自analyticbridge网站,由 Vincent Granville于今年5月发表的文章《The curse of big data(大数据的诅咒)》。这篇文章发表之后被广为转载和引用。
  《大数据的诅咒》一文从数据分析专业的角度,以数理统计的理论论证了大数据“放弃因果关系”的谬误。
  所谓“大数据的诅咒”是指,当人们试图在有数十亿甚至数十万亿个数据点,而且包含数以千计指标的非常大量的数据集中寻找一些模式时,一定会发现一些用处的巧合事件。理论上,当样本数量过大(变量因子超过1000个),就会在数据集中发现数量众多的“统计上显著”而非“因果上显著”的关系。在数据分析上,“因果上显著”为信号,而“统计上显著”为噪音。所以通俗地讲,“大数据的诅咒”是指,噪音必然会将信号淹没。
  大数据鼓吹者喜欢引用的“啤酒与尿布”案例,并非出自大数据的分析。按照《大数据的诅咒》说的,如果运用大数据,一定会得出N多个类似于“啤酒与尿布”的量化关系,从而把“啤酒与尿布”(信号)淹没在数量庞大的噪音中,而不能发现“啤酒与尿布”的因果关系。当今所有关于大数据的技术与方案,无一能自动揭示因果关系。
  在实践层面,《黑天鹅:如何应对不可知的未来》一书的作者,商业思想家纳西姆·塔勒布指出,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,要找的那根针则被越埋越深。
  大数据应用的鼻祖之一是生命科学中的基因学。科学家曾热衷于对整个基因排序,然后剖析其中的相关性,这种没有尽头的“盘前审问”导致种种无用的结果发生,科学家们一头雾水,至今在基因大数据分析中一无所获。
  北大教授刘德寰以自已翔实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。
  Christopher Mims最近发表文章称,以 Facebook 为例,工程师交给集群处理的大多数任务也只是 MB—GB 级的,这意味着用笔记本就能处理了。Yahoo交给集群处理的任务规模平均是 12.5GB。这个规模对于任何服务器都没有问题。大数据不是革命,小数据才是革命。格里格·孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。重要的是收集合适的数据,而不是随便收集。
  大数据,原来是个大忽悠。W
  大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点是:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)。
其他文献
4月25日,杨元庆在财年誓师大会上说:联想的企业形象需要转变,应从过于保守稳健的“中年大叔”形象,转变为更加年轻化、时尚化、消费化的形象。  4月9日,史玉柱称将于4月19日辞去CEO职务。史玉柱坦承:“这个决定不是一下子做出来的,主要是因为觉得自己年龄大了。”  1月16日,马云称,互联网是年轻人的天下。因为,他们比我们更懂得未来,更有能力创造明天。今年,我们将把领导责任交给70、80年代的同事
移动化正在改变我们生活的方方面面。越来越多的企业开始把移动化作为企业IT战略的一部分,有些甚至把移动化作为优先目标。不过,依然有不少企业并没有为此做好准备。那么,该如何为企业制定一个可行的移动化战略?对此,CA Technologies中国区总经理陈光明提出可分7步来制定企业的移动化战略。  “即使企业无法预测未来三年、五年甚至十年后移动化对业务带来何种变化,仍可以从现在开始通过这7个步骤来制定企
惠普近日推出了基于英特尔至强E5 v3处理器的ProLiant Gen 9服务器系列新品,包括刀片、机架、塔式和横向扩展四种架构的多款服务器。惠普公司企业集团服务器事业部全球营销副总裁Peter Evans表示,在今天的云计算和大数据时代,IT正在向以提供服务的形式变革,以此帮助企业业务部门获得成功。在IT即服务的变革中,基础设施至关重要,而计算是其动力所在。  在企业中,IT以服务提供给业务部门
6月13日,时隔四年的世界杯战幕再次拉开。然而就在前一天,多个有关世界杯的网站、包括世界杯官网遭到DDos攻击,导致用户无法正常访问。事前,就有黑客组织威胁,将在世界杯赛事期间,对世界杯相关网站发动攻击。这使网络安全问题再次成为全球关注的焦点,也给各大网站敲响了警钟。  其实,DDos攻击早已不是什么新鲜事,类似的攻击几乎每天都在上演。然而伴随IT技术的不断演变,DDos攻击自身也在不断变化。比如
我听说,如果要企业的IT经理们评选出一个词来代表2012年,许多同行都认同“辛苦”恰当。为什么辛苦呢?天上云服务和云计算还没飘过,地上的大数据就开始爆炸;刚刚在电子商务的红海里杀出重围,就被逼着到移动的蓝海上去追逐客户。所以我就问IT经理朋友们,企业到底最需要的是什么?几乎所有的人都认同,企业最需要的是不可复制的创新。  企业的活动无非就是资金流、物流和信息流的三方协作。信息流是把资金流和物流连在
在全球,有哪家科技公司的年收入可以超过300亿美元?要知道,想迈入这个数字门槛可不简单。根据2013年各家公司的财报,甚至连甲骨文、IBM这样的巨头都只是能够在门槛外徘徊,不得其门而入。  不过,这样的数字对于一家叫做Digital River的厂商来说却轻而易举。来自维基百科的公开数据,2013年Digital River产生了超过300亿美元的在线交易额。不过别误会,这300亿美元可不是Dig
云服务商青云QingCloud(以下简称青云)日前宣布,位于香港的亚太1区(AP1)已于10月26日开放。至此青云已经拥有了分布在北京(2个)、广州(1个)和香港(1个)的4个计算节点及4个托管的节点,支持着超过2万家企业用户。同时,亚太1区的上线也意味着青云正式开启了国际化运营的第一站。这份成绩对于青云这家成立不过两年的初创公司实在难能可贵。  青云是一家主要提供IaaS云服务的供应商,成立于2
“我们今天的CAC不是做产品推销,不是希望大家来买我们的产品,而是想介绍这款产品,希望大家提出对产品的建议。”在4月25日召开的的联想大客户PC业务研讨会(CAC)上,来自联想集团中国区的大客户事业部PC产品营销总经理王立平一边手里拿着最新产品小Q(ThinkCentre M4500q第二代超小型商用台式机)一边诚恳的与来参会的渠道商、行业客户互动。  “联想的产品创新,要时刻听取客户的意见。”王
在市场、行业、用户需求都发生变化的当下,如何完善渠道体系,为企业带来更大价值,已经成为传统管理软件厂商迫切需要解决的问题。  基于此,SAP于今年5月成立了一个新的部门GPO(全球合作伙伴运营部)。“这是SAP历史上第一次组建专门负责全球合作伙伴业务的部门,而且是直接向CEO汇报。”刚刚被任命的SAP 全球合作伙伴运营部总裁Rodolpho Cardenuto说。  Rodolpho Carden
iPhone6/ iPhone6 Plus发布和阿里巴巴上市,估计是这个月圈内最大的两件事。当然阿里巴巴上市的日子显然因为苹果缓了几天。9月10,无疑又是一个期待、狂欢、揪心、吐槽的日子,但是最终还是一种普遍的结果——我要买iPhone 6。这也就意味着苹果依然会迎来未来一年的商业成功。  作为苹果CEO库克口中“史上最高级的iPhone”,iPhone 6分为两种版本,iPhone 6和iPho