扫一扫
关注微信公众号

解读大数据和CDO:概念大过实际意义?
2012-10-17   网络

就在去年刮过云计算之风,其中部分“泡沫”已经破裂,人们的关注度有些下降之后。大数据这个概念又被一些厂商“利用”为宣传利器,EMC作为其中的代表从去年EMC World 2011大会就开始发动了攻势。

  可能是由于工作经历的缘故,笔者对云计算、大数据,包括由后者而提出的CDO(首席数据官)这些新的热点话题,其中偏概念而非具体技术的部分,在一段时间内持谨慎旁观的态度。从用户的需求来看,真的是“老同志遇到新问题”了吗?当然IT技术、应用模式的发展,对业务不断提出了新的要求。海量增长的非结构化、半结构化数据中确实有值得挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也是渐进式的。

  在《纪录中国——企业存储的自主之路》一文中,笔者曾经谈到了一些国内存储品牌自主的研发理想和OEM转销的现实。而本文我想以部分厂商为代表,“批判”或者说“揭露”对大数据宣传背后的实质内容。其中可能不完全是肯定的,总之希望读者能够更全面、客观的看待大数据这个概念。当然,我的评论中也可能会有不当之处,欢迎大家提出不同意见,批评指正。

解读大数据和CDO:概念大过实际意义?

  大数据世界论坛:2011和2012的不同

  首先,我想提一下去年和今年在北京举行的大数据世界论坛(BIG DATA World Forum)。个人感觉今年参与(赞助)的厂商没有去年多,也相对缺乏有新意的话题。

  退出的几家厂商大致包括:比如说Teradata(天睿),去年他们谈的数据仓库;IBM Netezza的资深专家去年发表了精彩的演讲,他们的产品也属于一种新型的数据仓库,与Teradata的通用x86硬件相比增添了FPGA(现场可编程门阵列)芯片来加快数据从存储中调出的筛选速度;SAP去年还不否认他们的HANA内存计算方案属于“大数据”,而今年就开始宣称“大数据是个谎言”——传统列式数据库就能很好地处理大数据。

  还有EMC。这里倒不是说EMC不再重视大数据,而是就Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器MPP(大规模并行处理)分布式可扩展架构。站在厂商的角度,如果没有更多的新鲜东西,过多的投入资源来重复宣传显然不划算。因此EMC将其Atmos云存储(对象存储)、Isilon集群NAS都囊括在大数据的概念下,当然也有技术方面的努力,比如Isilon对HDFS(Hadoop文件系统)的支持,但其实用价值有多大就是个见仁见智的问题了。

解读大数据和CDO:概念大过实际意义?

EMC Greenplum在与数据打交道的各种用户之间又加入了一个“Chorus-分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。

  至于SAP的策略转变,估计和他们的产品有一定的独特性有关,适合的应用场景也与众多基于Hadoop开源方案的产品有着较大的不同。因此SAP可能觉得与“那些人”站在同一条起跑线上有些吃亏?索性就干脆划清界限——“我有成熟的Sybase数据库,而且它能够满足当今用户的需求。”

  前面提到的都不是什么新闻了,而且这几家厂商(或者被收购的业务部门)都是做数据库或者数据仓库出身的,相对而言与大数据的关系还比较紧密一些。接下来笔者想就最近发生的一些事件,几家看似与大数据不相关的IT厂商推出的策略,发表些简单的观点。

 VMware:让Hadoop运行在虚拟机上?

  应该说这种应用方式不是最近才提出的,而上周三(8月8日)在北京举行的“VMware & EMC大数据云高峰论坛”让我们重新思考一个问题。随着EMC和VMware高层一系列变动日期的临近,Cloud Foundry将要与Greenplum等业务重新组合在一起,也就是云(PaaS)和大数据(数据仓库+分析)的联合?

  “让Hadoop运行在虚拟机上,VMware号称性能下降在10%以内,在某些情况下,用虚拟机运行Hadoop的性能甚至能够超过物理机?”

  谈到性能,这就像EMC表示其存储虚拟化环境下运行一些关键应用的效率高于物理机一样。这其实只代表EMC存储对VMware的支持好,因为对应的那几种应用性能瓶颈都是在存储而不是计算上。单纯就x86服务器而言,虚拟化Hypervisor做得再好也不可能提供超出物理资源的性能啊。

解读大数据和CDO:概念大过实际意义?

  我们再来看看EMC官方的说法。

  虚拟化对Hadoop的四大促进作用:第一、让Hadoop适用于多租户环境,因为不同部门可能都需要各自的Hadoop集群。第二、提高Hadoop的安全性,VMware虚拟化在不同集群之间产生强隔离。第三、提高Hadoop的可伸缩性,使得它很容易进行伸缩加减节点。最后一点当然是增加CPU的利用率

  而有业内人士发表了不同的观点:

  “除了部署灵活性之外,在性能、安全性、资源利用率方面均不具备优势,在部署方面有人说虚拟机多么好,但是我并不觉得如此,Hadoop的部署很简单,如果部署HA,则可以考虑采用大云的自动化HA方案

  但是如果你的数据已经在(Amazon)S3上面,则不得不使用虚拟机了,无论是EMR,还是自己搭建。”

  也就是说,虚拟化是Hadoop与云计算结合的一个点。虚拟化的隔离做得再好也是在一台物理机内部的隔离,而Hadoop常规的集群部署则是物理上的隔离;像服务器虚拟化那样提高CPU利用率是个好想法,评价Hadoop应用的资源过剩还是瓶颈不一定是由CPU决定的,有可能是各节点的存储(HDFS)。EMC的想法是将数据放在Isilon或者VNX集中存储上?但这样做没有成本优势。

  另有一位业内朋友表示:

  “本来HDFS都是架设在datanode(数据节点)的本地硬盘上的,现在又要通过网络再输出到共享硬盘上,网络的压力更大了,虚拟机环境的瓶颈本来就在存储和网络上,而且这样其实违背了Google的让计算离数据更近的初衷,个人不是很看好Hadoop架设在虚机上的效率。”

  Intel为什么也要玩Hadoop?

  今年,Intel也把企业数据中心的市场宣传重点转移到大数据,其中也包括他们自己搞的Hadoop发行版。有些人不禁要问:Intel的核心业务不是在CPU上面吗?(笔者在“大数据时代:Intel Xeon、LSI SAS术业有专攻”一文中有过相关讨论)

  确实,Intel给人的感觉不是一家软件公司。包括Xeon(至强)处理器在内的服务器平台产品线,于x86阵营中已经处于绝对的优势AMD的份额已经基本没有威胁),即使面对RISC阵营也在不断蚕食后者(包括Itanium)的市场空间。那么Intel需要寻找新的增长点,在整个行业几乎都在喊云计算和大数据的情况下,能够免俗的人不多。

解读大数据和CDO:概念大过实际意义?

上图(点击放大)资料来自Intel,仅供参考

  不知道有多少人了解,Intel的软件部门还有着上万名员工。曾经有同行表示:AMD相对Intel的一大软肋就是他们的软件优化能力不足。从C++、Fortran编译器,到如今充分发挥多核/多线程能力的Parallel Studio,Intel在处理器相关软件生态环境上的努力和收获都是看得见的。

  一位在国内某大型互联网行业用户工作的朋友曾对笔者说,他们采用过AMD和Intel CPU的服务器,但后来用AMD就少了。因为他们体会到,购买相应平台的硬件,Intel还会帮助进行软件上的调优等支持工作。当然这个的前提应该是用户达到一定的采购规模。

  所以说,尽管Intel在Hadoop方面的起步不一定很早,相关技术也不见得比本文前面提到的几个厂商搞得更好?但以Intel在行业内的影响力,还是会有人响应并且不能小看,就像他们面向企业存储市场的SSD(固态硬盘)910、710那样。

CommVault:大数据就是保留和归档?

  CommVault这家在前几年发展迅速的存储软件公司,称自己的Simpana产品为数据管理一体化软件。为了便于大家的理解,我还是习惯于将其归类为数据保护软件,或者说有备份、CDP、归档等功能模块。如今我们看到CommVault也在谈大数据,并提到未来的Simpana 10新版本,以及分析功能。那么,此“大数据”等于彼“大数据”吗?CommVault也要搞像Hadoop那样的数据挖掘、分析吗?

  尽管对此没有做较多的调研,但以笔者对这家存储软件厂商的了解,CommVault应该还是专注于自己擅长的细分领域,其功能还是围绕着数据管理和保护概念下的备份、归档等。所谓的“分析”功能有可能是类似于笔者曾经介绍过的惠普Data Protector 7软件,采用收购自Autonomy的IDOL(智能数据操作层)技术“基于语义的保护”,实现在备份的索引中,根据关键字或者其它参数来搜索想要恢复数据的功能。

解读大数据和CDO:概念大过实际意义?

  既然人们可以将Autonomy视为大数据厂商,那么CommVault如果有类似IDOL那样便于数据查找、恢复的技术,说他们与超出传统备份软件厂商面对范围的大数据“沾边”也不为过?

  CDO(首席数据官)之我见

  CDO概念最初由国外提出,并且目前阿里巴巴已经任命了“首席数据官”这一职位。那么CDO会像CTOCIO等那样普及开来吗?哪些企业需要设立CDO呢?

  退回到2009年,笔者刚开始了解到CIO(首席信息官)这个称号。没错?我以前真的不知道,经常与厂商市场营销部门和媒体打交道的人应该都不会陌生。但仔细想一下,我们能记住IntelIBM微软等知名厂商的CIO是谁吗?他们会像CIO、CTO那样公开发表言论吗?基本不会吧。信息化这个词感觉更好理解些,许多企业都需要不同程度地倚重这个IT管理部门,但我们除了在与那些CIO相关的供应商组织的会议之外,他们在日常工作中也会被称为CIO吗?

  “首席信息官”中的信息,从字面意义上理解与IT建设似乎并不能画等号?在今天的大数据时代,已经有人提出“将数据变为有价值的信息”这个口号,那么对于负责实现企业中数据价值的leader而言,如果不是因为已经有了其它用途,“CIO”一词是否比CDO更为合适呢?如果只是单纯地负责存储设备上的数据,那与存储管理员又有多大区别?在大数据这个词流行之前,也有人从事数据挖掘、分析工作,将他们的职位归为某个业务部门,与现在部分人称之为CDO又有什么本质上的不同呢?

  可能有人觉得笔者在这里给大数据和CDO这些概念“泼凉水”,其实我的初衷只是希望大家能够更加客观、冷静地看待大数据、相关技术和业务方式的变化,以及每个厂商口中的大数据有什么不同。

  最后,让我们来换一个角度。如果说大数据、CDO这些新名词对用户的实际意义不大?或者说只是换了一个新的说法(概念)的话,但不等于它们对厂商的宣传和媒体而言也没有意义。毕竟市场需要造势,吸引关注需要“噱头”,产品技术也需要各种包装,才能被人们更好地理解认识,而不是冷冰冰地放在那里。

热词搜索:

上一篇:曹济将出席中国项目管理培训大会
下一篇:移动管理 管理改变未来

分享到: 收藏