Hadoop:云中起舞的小象

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:beijingmonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “Hadoop是我两岁儿子给他的黄色毛绒小象玩具起的名字,名字很短,发音很容易,并没有什么意义,也没有其他用途。” 开源软件界的程序牛人Doug Cutting如此解释Hadoop这个词。
  然而,当2006年Cutting以Hadoop命名他开发的一个分布式软件项目后,Hadoop这个词不仅很有意义,而且在云计算领域显露出广泛的应用前景。
  2008年,中国有家电信运营商试着用36万元搭建了一个基于x86架构和Hadoop架构的云计算评估平台。在与已有的270万元商用系统跑同样的应用进行性能比较后,他们惊喜地发现,Hadoop平台的数据处理性能增加了约30倍,数据挖掘性能增加了约9倍,而且成本优势将随着数据处理规模的增加而更具优势。如今,这家电信运营商已成为国内云计算的积极的倡导者和实践者,这与其当初从Hadoop上获得的震撼不无关系。
  而2008年的Hadoop,还只是只两岁的小象。
  
  小象的身世
  
  施乐位于硅谷的实验室(施乐PARC)以个人电脑、鼠标、图形界面、激光打印机、以太网等众多的重大贡献享誉业界,但是这些重要技术的发明人在相继离开施乐PARC后,在学术和技术上的成就却鲜有超过其在施乐PARC的技术生涯。
  Doug Cutting是一个例外。他曾经在施乐PARC默默无闻地工作了5年,然后又在苹果、Excite(搜索引擎公司)和雅虎工作多年。二十多年对搜索及相关技术的不懈追求和对开源运动的热爱,最终让大器晚成的Cutting凭借Hadoop而名扬天下。
  1998年,Cutting开始用Java编写Lucene。Lucene是一个开源的全文检索函数库,程序员可以通过Lucene在应用系统中实现全文检索的功能,或者在此基础上构建全文检索引擎。到了2001年,Lucene成为开源软件基金会Apache的项目。开放源代码以及出众的索引架构和可扩展性,使得Lucene成为今天最为流行的全文检索函数库。现在,维基百科使用的就是Lucene。
  然而,要做一个互联网上的搜索引擎,Lucene还需要网页爬虫和查询的配合。于是,到了2002年,Cutting和Mike Cafarella开始了名为Nutch项目的相应的开发工作。最初,他们认为,Nutch架构不大可能覆盖到互联网上数十亿的网页。到了2003年,Google发表的有关Google分布式文件系统(GFS)的论文增强了他们的信心。2004年,Cutting和Cafarella发布了开源的Nutch分布式文件系统(NDFS)。
  2004年,Google两位程序牛人Jeffrey Dean和Sanjay Ghemawat发表了著名的《MapReduce:大型集群上的数据处理简化》论文。MapReduce从此风靡业界。
  2005年初,Cutting开始在Nutch上实现MapReduce。到了2006年2月,这项工作从Nutch项目中剥离出来,独立成为Lucene的一个子项目,并被Cutting命名为Hadoop。与此同时,Cutting加盟雅虎。雅虎为Cutting配备了专门的开发团队和各种资源,希望Cutting把Hadoop发展成能在Web上大规模运行的系统。
  2008年2月,雅虎演示了具有10000内核的Hadoop集群系统。而此前的一个月,Hadoop刚被Apache列为顶级项目。
  
  Google保守与雅虎开放
  
  尽管Google诞生并得益于开放的互联网世界,但Google对自家的技术还是非常封闭的。虽然Google的论文让MapReduce名扬天下,但Google却没有把他们的MapReduce的实现与业界分享。毕竟MapReduce的实现是支撑Google帝国的核心基础。
  作为开源软件积极的实践者,Cutting几乎是在家中自由的氛围下进行Lucene和Nutch的开发,而寻求资助就成为Cutting写代码之余的另一项工作。
  在去雅虎之前,Cutting也曾找过Google“拉赞助”,跟Google创始人之一佩奇和其他人都谈过。“他们很愿意提供帮助,可他们找不到一种既资助了Nutch又不至于帮助到Google竞争对手的方法。”Cutting曾对媒体表示。
  Google把MapReduce看作是与对手竞争的独门绝技,如果Google资助了Cutting,Cutting用开源的方式实现了MapReduce,岂不等于把MapReduce的技术扩散出去,进而为Google的竞争对手所利用,岂不得不偿失。
  与Google的精明相比,当时最大的互联网公司雅虎却犯了一次“傻”。2004年1月,雅虎很大方地主动找到Cutting,要求资助Nutch项目,继而将Cutting揽于麾下。
  “业界很希望开源,因为开源可以鼓励很多的创新。雅虎贡献了Hadoop 70%的源代码,我们可以使用其他开发者贡献的另外30%的代码,而且,我们在北京找到有Hadoop开发经验的工程师也变得容易起来。作为一个大公司,我们希望能够对业界做出我们的贡献,同时,我们也能够受益其中。”雅虎北京全球研发中心总经理张晨表示。
  Hadoop之所以日益受到关注,就是因为大家不必再望MapReduce而兴叹,人们可以在开源的环境下,在云计算时代享受到MapReduce带来的种种好处。
  Hadoop为云计算的应用提供了开源的系统平台。Hadoop除了提供分布式文件系统(HDFS)和支持MapReduce的计算框架外,还在这一计算框架之上提供了可扩展的数据仓库Hive、结构化数据库HBase、数据流高层语言Pig、高性能分布式协同服务ZooKeeper、面向大规模分布式系统的数据收集软件Chukwa等。
  Cutting对Lucene、Nutch和Hadoop的杰出贡献,反倒让开源社区中很多Hadoop的爱好者担起心来,生怕Google从雅虎挖走Cutting。担心的时刻终于在2009年8月到来了,Cutting从雅虎辞职。然而,让Hadoop爱好者欣喜的是,Cutting没有放弃他所钟爱的Hadoop,他去的Cloudera是一家只有十几人的创业公司,专门为Hadoop提供技术服务。
  2010年9月,Cutting当选为Apache软件基金会主席。这与其说是对Cutting的肯定,不如说是开源界对Hadoop价值的肯定。
  
  Hadoop的中国社区力量
  
  得益于互联网的有效传播,特别是互联网大规模并发计算与海量存储的应用特征对传统计算模式的冲击,在Hadoop还是小小象的时候,国内的Hadoop爱好者便开始了网聊——技术交流,到了2008年,这些未曾谋面的志同道合者,认为应该在现实世界中认识一下,面对面地交流技术。
  于是,中科院计算所做东,举办一次Hadoop开发者技术沙龙,几十位Hadoop爱好者总算彼此之间把网名与真人对上号。而计算所做东的传统便延续下来。
  到了2010年,这个技术沙龙已经演变成由计算所主办、约有600位开发者参加的Hadoop中国2010云计算大会。一只小象引来了雅虎、百度、淘宝、中移动、EMC、FaceBook、计算所等知名的企业和研究机构的参与。
  “我们很高兴地看到,虽然雅虎还在不断地为Hadoop贡献源代码,但雅虎的贡献率已经从当初的90%下降到现在的70%,这说明更多的企业和志愿者成长起来,Hadoop社区更加强大了。现在,国内有些企业也很愿意成为Hadoop源代码的贡献者。”张晨说,“我们也在考虑如何协助他们,尽管我们的职责是为雅虎全球开发核心产品。”
  Hadoop大会结束后,从雅虎总部参会的演讲者又在雅虎北京研发中心就Hadoop的优化问题进行了深入的技术探讨。近3个小时纯英语环境的技术交流与探讨,吸引了大约200位Hadoop爱好者。
  社区是开源软件的一面镜子。Hadoop在中国的发展,从Hadoop社区的成长便可略见一斑。
其他文献
五十而知天命。  没有人会认为如西门子一般成功的高科技企业会玩不转IT,但事实就是如此。西门子在中国IT领域已拥有超过50年的不平凡的历史。近年来,除了手机业务节节败退之外,西门子IT服务集团一段时间以来长期被总部“雪藏”,尽管两年来IT服务已成为最为热门的领域之一。6月中旬,西门子中国方面传来消息称,西门子IT解决方案和服务集团将积极转型,从之前的只为内部客户服务转而面向整个中国IT服务市场立足
存储空间不足是许多企业经常碰到的难题。有的企业在遇到这种情况时,总是毫不犹豫地购买新的存储硬件。但是作为企业的决策者,有没有仔细考虑过,这笔硬件支出能不能节省下来?    提升利用率是关键    存储资源的优化对于降低系统的整体拥有成本是十分重要的。不必购买新的存储硬件,通过一些软件技术,就可以达到提升存储利用率的目标。  赛门铁克公司副总裁、大中国区总裁吴锡源介绍说:“当前,许多企业存储设备的平
今天,以数据为基础的通信正被视频和多媒体通信所取代。随着网络视频流量的激增,我们必须对运营商、企业和家庭的现有网络进行优化,才能保证视频和多媒体内容等应用的正常展开。在不久前举行的2009中国国际广播电视信息网络展览会(CCBN)上,思科公司以“视界.新体验”为主题,将其展示的重点定位在视频和多媒体内容的优化方面。  据了解,思科公司把其面向服务提供商、企业及家庭的视频和富媒体进行优化的网络称为“
很多中国用户在建设数据中心时,缺乏整体的规划,过分关注供配电系统的单一技术指标,而不注重整体的可靠性、安全性等指标的平衡,从而导致过多的能源损耗和谐波污染等。“用户在设计数据中心之初,就应该在充分了解数据中心整体应用和运营情况的前提下,提出有针对性的供配电解决方案,这样才能提高数据中心的效率,降低电力损耗。”西门子IT解决方案和服务集团数据中心解决方案部经理程应军表示。  各主要品牌的UPS在可靠
并不是所有的事情都能如谷歌的意,本打算通过谷歌TV进攻网络电视领域,却不料在美国踢到了铁板。美国广播公司(ABC)电视网、哥伦比亚广播公司(CBS)电视网以及国家广播公司(NBC)环球电视网等三大电视台联合抵制谷歌TV,让谷歌深入消费电子领域的计划搁浅了。  这一切还只是刚刚开始。未来,谷歌TV还能走多远?成功占据TV广告市场,还是将再遭受一次电视娱乐业的“镇压”?这场原本在暗里使力的较量随着三大
绿色数据中心是个老话题,但实际上以前很多企业对绿色并不在乎。毕竟努力节流不如努力开源,况且对CIO来说,数据中心的费用,每年有固定的预算,不花明年就没钱了,岂有不花之理?  现在CIO们真正开始关心起绿色来。一方面是因为国家政策出台后,大企业有必须执行的节能减排指标。比如2020年我国单位国内生产总值二氧化碳排放比2005年下降40%~45%,作为约束性指标纳入国民经济和社会发展中长期规划;8月中
得益于网络基础设施建设加快,宽带网络普及率快速提升,同时电脑、手机等上网终端设备数量增长,2008年中国网民规模持续大幅增长,用户规模达到2.98亿人,比2007年增加了8800万人,同比增长了41.9%,用户对互联网的接受程度、应用水平以及消费能力都明显提升。2008年,中国互联网总体市场规模达到1389.9亿元,持续了20%以上的快速增长,其中,互联网应用服务市场规模为706.9亿元,首次超过
面对需求的融合与变迁,单一企业、单一产业链主体已经很难在融合趋势日益增强的市场中保持优势。超越产业链,整合产业生态资源,创新变革企业商业模式,正成为IT产业发展新的主旋律。    2008中国IT市场年会汇聚了各界人士,探讨IT业面临的新挑战。  当前信息技术的发展日新月异,技术创新和融合的趋势明显,互联网、通信网、广电网的融合,软硬件的融合,制造业与软件业的融合催生很多技术和应用模式,同时各个产
雏形期没有获得唯利是图的风投青睐,却茁壮成长,并将SNS概念发扬光大;高速发展期让传媒大王赚得钵满盆盈,让原股东后悔割肉出局;颓势尽显后积重难返,走到了奋力拼争或打包甩卖的岔路口。这就是MySpace,我们没有猜中故事的开头,也猜不中结局。    国际友人在研究中国文化的时候注意到了中国几千年以来讲究的“关系”,connection这个单词也被赋予了中国特色的意义。他们似乎不太理解中国人的这种情结
是什么让西安欧亚学院每年招生的时候忙而不乱了?  是什么让圆通快递客户投诉的处理效率大大提升了?  是什么让陕西松茂食品餐饮公司解决了众多分散的分支机构之间,内部员工的通信、沟通难题?  是什么让陕西人寿在一个月之内建起了电话营销中心,提供“一个电话保险到家”的服务?  ……  一切的答案就是基于软交换的IP呼叫中心(IPCC)。    西安是个大学扎堆儿的地方。作为一所私立本科大学,西安欧亚学院