大数据应用:理想照进现实

来源 :计算机世界 | 被引量 : 0次 | 上传用户:hanjiezm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  自身业务的创新推动了企业对海量级数据价值挖掘的需求。通用汽车的安吉星(OnStar)服务每年管理的数量早已多达3 PB,该服务为车主提供远程车辆诊断服务、应对突发事件。在安吉星CIO Jeffrey Liedel看来,这些数据就是金矿。
  例如,通用汽车正在测试在雪佛兰混合动力汽车Volt上使用的一款移动应用程序,该程序可以帮助驾驶员们监测汽车电池和远程管理充电。事实上,为数众多的车主都希望汽车制造商们可以缓解“里程焦虑”(担心电动汽车还没到开到目的地时已耗尽电量),所以目前,包括日产和福特在内的汽车制造商也已在提供或打算提供监测电动汽车的类似功能。Liedel说:“除此之外,客户对车辆驾驶情况、驾驶模式和燃油经济性等分析数据也非常感兴趣。”
  并非只有电动汽车的用户想通过安吉星服务更深入地了解车况,通用汽车内部的业务部门用户和外部的合作伙伴也需要这些数据。Liedel表示,可靠、安全、灵活地提供数据,这项任务落到了IT部门的肩上。他说:“关键在于认识到数据和分析的重要性。”
  除了这些掌握PB级信息的CIO要琢磨如何管理数据,那些仅仅收集GB级数据的公司也看好利用自有系统之外的信息。拥有处理“大数据”的能力和有效分析大数据的工具,正成为一种必需的竞争优势。
  埃森哲首席技术创新官Gavin Michael说:“每家企业都在竭力利用自身拥有或可以访问的数据,希望获得比以往更有成效的数据支撑。不过,由于许多公司的分析人员数量很少,他们从未把大数据当做一种企业资源来利用。CEO们需要从企业的角度看待数据,了解如何整合和分析数据。”
  交易和分析不混搭
  随着硬件和存储成本不断下降,有些CIO会认为在现有系统的基础上添加容量以支持数据分析是经济高效的举措。但一些人则认为,分析大数据时,交易系统和分析系统单独维护是搞好这两个流程的必要条件。
  美国退伍军人事务部在过去两年中部署了25个数据仓库,用于分析大数据。该部门为2200万名退伍军人提供健康福利,其CIO Roger Baker表示,分析来自退伍军人电子健康档案(EHR)的数据直接影响到临床医生能否更有效地使用该系统,隐藏在数PB的临床和遗传数据中的宝贵信息有望带来更有效的医疗方法。退休军人事务部甚至启动了征集DNA样本的一项计划,补充退伍军人的健康档案。
  Baker说:“我们有一大堆二三十年间收集起来的宝贵信息,涉及病人的症状、治疗情况和治疗结果。”
  Baker表示,EHR系统包含“面向交易速度的层次数据库,所以临床医生在门诊时,需要数据库快速反应。”另一方面,分析数据库会根据临床主题来加以组织:药剂信息在一个地方,血液数据在另一个地方。“我们希望为研究人员提供重要的关联数据和计算能力,让研究人员可以弄清楚需要什么样的数据。”
  但是,数据分析并不容易,需要将某一病人的档案和其他病人的档案进行比较,同时也要和同一病人多年前的档案进行比较。由于数据量很大,Baker打算在明年添置超级计算机以便更快速地处理数据。他说:“数据访问速度越快,信息带来的价值就越大。”
  不过,并非所有对大数据进行分析的公司都决定投资超级计算机,要不要投资于超级计算机取决于用户对获得查询结果的速度的需求。一般情况下同使用超级计算机获得查询结果只需几小时或几分钟,使用传统服务器从庞大数据集获得结果可能需要几天。
  波士顿儿童医院的信息学主管兼哈佛医学院的教授Isaac Kohane表示,获得数据分析结果的速度也是因人而异的。目前,他负责哈佛医学院及附属医院的研究人员和医生之间的合作,开发用于处理临床和研究数据的技术。他表示,需要花这么长时间的查询所处理的工作并非优先级很高的业务事项,所以没必要花钱购置更强大的处理能力,来加快获得结果的速度。
  重点在数据
  在大数据处理的过程中,CIO们面临的一个更大的问题是,确保数据本身可用性和可靠性。大数据加大了数据治理、确保数据质量和访问控制方面的难度,因为它既涉及IT技术,又与业务部门密切相关。埃森哲的Michael说:“共享整个企业的数据未必是件容易的事,很难让整个企业共同来解决这个问题。”
  2011年,罗得岛蓝十字蓝盾保险公司重组后精简了业务。在这个过程中,管理人员认真分析了企业自身处理利用这些数据的情况。这家保险公司原CIO现CEO Bill Wray说:“我们的数据资源非常分散,每个部门各行其是,财务分析人员、保险业务受理人和保健分析人员建立各自的数据集,且没有中央治理机制把数据汇集起来。”
  由于受联邦医疗保健改革的推动,蓝十字/蓝盾保险公司希望改变原有仅仅处理医疗赔付的方式,通过为医疗服务机构提供经济激励以促进病人的健康,同时鼓励病人与初级保健医生建立更密切的关系,以降低现在每月处理100万笔索赔的压力,当然这需要企业级的分析功能做决策后盾。
  Wray说:“如果更好地利用初级保健医生的资源,在疾病预防上下功夫,会让病人更健康,医疗赔付的成本也会随之降低。但是,人们在就医的过程中需要有大量纵向分析和趋势分析,这些分析让这个问题变得错综复杂。”
  目前,罗得岛蓝十字蓝盾保险公司有一个企业数据库,但建立数据库的目的主要是收集数据,报告给用于横向比较的全美蓝十字蓝盾商业智能系统,本地分析人员并不使用该数据库。这样一来,要完成新业务模式所需的分析工作,该数据库就缺少来自公司理赔系统的信息,同时也缺乏可整合的外部市场数据。
  科罗拉多州教育部在大数据应用方面也有着自己的遭遇,对他们来说,确定新的数据治理做法是开发全州纵向数据系统(SLDS)过程中的一个重要步骤。该项目旨在把来自178个学区和28所公立高等院校的学生数据与福利、收入和劳动力等数据整合起来,建立统一平台,用于分析学生从幼儿园到大学的成绩。
  科罗拉多州教育部CIO Daniel Domagala介绍,该项目的25个目标中有9个涉及获取数据,包括建立一套通用的课程和项目编码,以及确定整合幼儿园收集的数据的方法等。   该项目的目标是,让地方行政官员和任课教师都能够通过该系统了解学生与该州其他学生表现的长期比较结果,并且明晰收入水平、学前教育和中学课程等因素给学生上大学或找工作带来的影响。这是一项长期性的工作,最终将涉及数TB的数据。
  与Domagala之前从事的石油天然气行业相比,这个项目的范围小了不少。他说:“它更多地涉及数据广度,连接不同的数据源。”但是这需要科罗拉多州在信息管理和使用方面进行重大改变。
  “州政府部门原则上希望共享数据,但单就学区而言现有报告信息的方法和渠道并不统一。”Domagala说,“一般来讲,教育部门和机构都会建立一套系统来监控和跟踪,该系统有自己的数据要求和访问控制,同时,每个学区也都有各自的系统和优先事项。”
  如Domagala所说的,像丹佛这些大型城市的学区在为每一所学校提供信息方面做得更好,而小型乡村学区则“提供信息方面的能力有限或没有”,这些系统间共享数据很难。
  Domagala说:“不同学区间系统的差距让信息的处理、验证和核实变得很难,我们引入越多的标准就越能减少不必要的重复。因此,IT部门的工作将更多地放在帮助教职人员使用数据上,而不是收集和监管数据。”
  关键在控制访问
  处理医疗保健、金融和教育等信息的企业要遵守相关法律法规,严格明确不同类型数据的访问权限,这需要每家公司通过身份管理的方式牢牢控制数据的分发。虽然,从技术上来说这种做法的实现难度不大,但大数据分析本身的需求特点为需要规定谁在何时允许进行哪一种访问的企业提高了分析门槛。
  “例如,允许访问退休军人事务部的庞大数据归档超出大多数企业在过去所要处理的任务范畴。”Baker说。事实上,一方面,Baker要确保每个退伍军人都可以通过自己的电子健康档案访问该政府部门所拥有的关于自己的所有信息。另一方面,他又要确保个人身份信息没有公开发布给研究人员。
  Baker表示,数据分析要面临的挑战是如何提供这些供研究用的大量不含个人身份信息的数据,“在这种情况下,用户信息泄密的威胁基本已经消除,身份管理的需要就不那么迫切了。”
  如果有效解决了这个问题,CIO就可以让分析人员放手分析数据,并且不用告诉他们应该运行哪些种类的报告、何时运行,也不用规定应该使用什么样的工具。IT部门变得更像是顾问和管家,而不是看门人。
  为此,退休军人事务部不仅为研究人员提供了一些“重量级”的工具,同时鼓励研究人员使用自己开发的分析工具。Baker说:“尤其是在我们研究开发的领域,研究人员会使用专门为所从事的研究项目所设计的分析工具。”
  罗得岛蓝十字蓝盾保险公司的Wray改组了该公司的数据分析人员团队,设立了一个“实践社区(community of practice)”,分析人员可以在这里共享工具和技术。“分析人员可以充分利用别人开发的应用程序,工作人员会跟踪和宣传这些应用程序,这样其他分析人员就更容易了解其他人开发的分析工具了。”
  弗雷斯特研究公司的分析师Brian Hopkins表示,数据分析的灵活性至关重要。数据量在飞快增长,随之需要新的分析技术。如果按照传统的商业智能方案的做法,首先业务领导人要明确自己需要什么,然后由IT部门建立一个系统来满足其需要,这种模式对大数据分析来讲行不通。
  大数据需要一种全新的态度。Hopkins说:“没有哪一个群体能解决所有问题。不同于传统的商业智能环境,大数据的分析和应用需要业务分析人员、数据整合专家,以及业务部门走到一起,开展通力合作。”
  为了设定正确的基调,Liedel选择了一名有业务经验的经理掌管其数据报告团队:“这名经理没有数据库管理员的背景,过去这个条件是我们在考察IT管理者时必备的一项考量标准。这点对我们来说是个大变化。”
  链接
  中国联通借大数据提高服务水平

  7月,国内三大电信运营商纷纷披露2012年上半年用户数据。其中中国联通6月份净增3G用户302.6万户,截至6月底,中国联通3G用户总数达到5753万户。
  3G用户量的增加,除了给中国联通带来了大量非语音业务的收入,还带来了“困扰”。中国联通研究院副院长黄文良表示:“用户数量的激增,也带来了客户服务的压力,特别是对于基于3G网络的数据服务。过去对于语音通话的客户服务内容,只是通话时间、通话时长几个方面,现在需要涉及上网时间、地点、访问了哪些网站等诸多信息。由于此前难以向用户提供详尽的上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰。”
  一直以来,在中国联通自身看来,手中的“3G牌”是“提升其行业地位的惟一出路和必然选择,是加快经营模式转型、改善用户结构,实现增长方式转变的战略突破口”。客户服务能力如果不能跟上中国联通3G业务的发展,势必会影响用户对中国联通高速数据网络和创新内容应用的体验,“将3G打造成为中国联通收入增长的第一驱动力”也就成为了空谈。
  在黄文良看来,大数据不是一个新兴事物,过去也有大数据,只是没有响应的手段和方法来解决集中存储、集中分析的问题。黄文良透露,目前中国联通正在通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案来构建移动通信用户上网记录集中查询与分析支撑系统。“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,也可为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题。”黄文良说。
  英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔表示,大数据处理任务需要倚重开放架构平台,英特尔首要的任务就是要打造适用于大数据应用的“芯”,而后帮助合作伙伴围绕这一基础创新打造可承载大数据应用的基础设施。
  据悉,在英特尔的帮助下,中国联通将在2012年10月结束整个项目的建设,届时除了为客户服务人员提供服务外,系统还可以为中国联通的业务部门提供分析、决策服务。黄文良表示,未来该系统还有望帮助中国联通更为准确地把握用户偏好,从而让中国联通能更有效地制定市场策略和开发新业务。(文/汤铭)
其他文献
本报综合消息 5月22日,谷歌正式宣布以125亿美元完成对摩托罗拉移动的收购。  谷歌表示,该收购案负责人丹尼斯·伍德赛德将会成为摩托罗拉移动的新任CEO。据了解,前任CEO桑杰·贾不会立即离开,而是在未来一段时间内帮助摩托罗拉移动平稳过渡,此外,多数摩托罗拉移动高管将留任。  在谷歌完成这项收购交易以前,该交易刚刚获得了中国监管部门的批准。为了获得中国监管部门的批准,谷歌承诺将至少在未来五年时间
与强生集团中国ITS(Information Technology Share Service,信息技术共享服务)部门负责人冯云中的采访约在了一个工作日的上午。这次采访的开场白和以往有所不同:首先提出问题的不是记者,而是被采访者;回答问题的也不是用户,而是在一旁的服务供应商。  甫一见面,还没等记者开口,冯云中就先向一起前来的会畅通讯的员工提出了一个问题:“最近我们有一个新的业务需求,你们看可不可
编者按:虽然步伐已经开始放缓,但智能手机市场仍处于快速增长期,对功能手机的替代依旧保持着激进态势;上一代功能手机的王者——诺基亚,则加速陨落,即将迎来又一轮全球裁员。有谁还记得,诺基亚上次传出好消息是什么时候?  本报综合消息 近日,市场研究公司IDC发布报告称,2012年智能手机的出货量将达到6.86亿部,同比增长38.8%。不过,与去年63%的年增长速度相比,智能手机的增势已经有所放缓。此外,
目前来看,除了专业的电子商务网站之外,各类传统企业也都纷纷“上网”,将产品搬到了网上。可以预见的是,未来随着网民数量的持续增加和工作生活节奏的加快,通过轻点鼠标获取工作、生活所需资料将成为大势所趋。  而随着未来互联网的进一步普及和社会信用体系的逐步完善,电子商务还将会迎来一个新的快速发展期。所以不管是电子商务,还是物流行业,都正处在快速成长阶段,未来的发展空间还很巨大。不过更重要的是,企业首先要
IBM近期对外发布了其面向入门级市场的存储产品Storwize V3500。IBM系统与科技部存储产品大中华区总经理黄建新表示,这一产品将用来填补IBM在存储市场10万元以下区间的产品空白。  一直以来,IBM在低端存储市场都是以DS3000系列“挑大梁”,而本次推出的Storwize V3500在定价和定位上都比DS3000系列的最新型号DS3500更低。用IBM系统与科技部大中华区存储产品经理
从1987年北大钱天白向德国发出第一封电子邮件开始,中国同世界一起经历了信息技术的大变革,如今,信息网络已经成为社会运行的重要基础设施,信息安全的问题,也从影响行业发展扩大到影响国家经济社会发展和安全。  5月31日下午,由工业和信息化部、国家发改委、科技部、国家外国专家局和北京市人民政府共同主办、工业和信息化部电子科学技术情报研究所承办的“2012中国信息安全产业创新发展论坛”在北京举办。工业和
近年来,有关大数据的话题逐渐增多。最大限度挖掘大数据中的有价值的信息已经成为众多企业的共同需求,特别是在互联网、电信、银行、保险等信息化水平较高的企业,这一需求表现得尤为迫切。响应市场的需求,厂商们推出了各种各样的大数据解决方案,而一体化的解决方案在其中独树一帜,并因其部署简单、上线快而受到用户欢迎。  日前,来自中国台湾的精诚集团在京发布了Hadoop一体机产品Etu(Etu 的命名是直译中文“
北京“的哥”王师傅开了8年出租,最近两个月来油价连续降价让他紧绷了许久的眉头略略松了松。“我住在房山,每天出车、收车都要放空几十公里,油价下跌当然能帮我省下不少油钱。”  燃油价格的波动,不但关系到王师傅这样一个普通出租车司机的收入,更是关系到整个社会生活的方方面面。同时出于降低碳排放、实现低碳发展的目标,国家近年来不断进行着能源结构的调整,石油、天然气等非煤炭的能源使用比例正在不断增加。  但是
安利公司在全球有300万的营销人员要管理。如何有效地让IT与业务相结合,成为安利长久以来一直头疼的问题。  “安利采用直销的模式,有效管理300万的营销人员,让他们可以更好地为消费者提供服务成为我们企业信息化架构的主要考量。”安利公司全球CIO迈克尔·尼尔森在接受《计算机世界》报记者采访时表示。  据悉,为了解决这个问题,安利进行了一系列的信息化尝试,充分利用最新的大数据理念与移动互联技术。在大数
城市当然不能被移动,能移动的只是人,还有他们身上携带的东西。钱包、钥匙,还有手机——确切地说,是智能手机。  目前,谷歌与IPSOS(益普索调研机构)合作的一项有关移动互联网的调研结果显示,智能手机的革命不是正在来临,而是已经到来;智能手机对于中国消费者,以及为这些消费者提供服务的企业非常重要。  在中国城市地区,这种趋势是显而易见的。  “移”民狂潮  需要指出的是,这项调研并不只针对中国城市的