说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

7个大数据流言——避免错误的Hadoop和云分析决策

HTML文档下载 WORD文档下载 PDF文档下载
要说Google的3大论文打开了大数据处理之门,那么Hadoop无疑是创造了大数据处理的开源传奇!然而传奇的周围从不缺乏流言,这不,为了“辟谣”,Adam Bloom在VMware博客上发表了入门Hadoop需要避免的7个流言。

Hadoop是由英雄们创造的开源传奇,然而传奇经常还伴随着一些流言——这些流言可能会导致IT高管们带着乐观的心态去制定策略。

数据体积和数据使用在以惊人的速度增长着,这一点从分析师的分析中不难获得——IDC今年在数据存储上的 增长速度将达到53.4%,AT&T声称 无线数据的流量在过去的5年内增长200倍,如果你着眼自己通信渠道的话,将毫无疑问的发现互联网内容、电子邮件、应用通知、社交消息以及每天自动接收的消息都在显著的增长。这也是为什么 从McKinsey到Facebook再到Walmart都重点聚焦于大数据。

就像我们看到的90年代与2000年代的互联网泡沫,大数据同样会导致一些公司做出糟糕的设想和决策。

Hadoop毫无疑问是公司为了解决大数据需求的主要投资领域之一,而类似Facebook这些在大体积数据处理上有所建树的公司都公开的吹捧过在Hadoop上取得的成功,同样初入大数据领域的公司也必先着眼这些成功的典型。Adam Bloom的一个MIT(麻省理工学院)计算机科学校友曾对他说:“when all you have is a hammer, everything looks like a nail。”通过Hadoop的炒作,我们可以避免 功能固着(functional fixedness)这种认知偏差。 Hadoop是一个多维的解决方案,可以通过不同的方式进行部署和使用。下面就看一下公司在开始Hadoop项目之前必须了解的一些关于Hadoop和大数据的预先构想的错误理念

1. 大数据只关系到体积

在体积之外,许多工业先锋还经常提到 variety(多样)、variability(可变)、velocity(速度)和value(价值)。撇开所有单词都押头韵,关键点在于大数据并不是体积上的增长——它正在向着实时分析、结构化和非结构化来源方向发展,并被用于尝试和制定更好的决策。综上所述,不是只有分析大体积数据才会获得价值。举个例子,超时限的存储和分析1PB的数据的价值可能比不上实时分析1GB的数据。从工具集上考虑,你可能需要一个内存数据网络进行实时的分析,从新鲜的数据上获得价值,而不是去解剖过时的数据获得价值。

2. 传统SQL不可以在Hadoop上使用

当Facebook、Twitter、Yahoo!在Hadoop上豪赌时,他们同样知道HDFS和MapReduce受限于处理类似SQL语言的能力,这也是 Hive、 Pig和 Sqoop最终得以孵化的原因。基于全球上大量的数据都是通过SQL来管理,一些公司和项目都在Hadoop和SQL的兼容上狠下功夫。

3. 取代大型机!Hadoop是唯一的新IT数据平台

在IT投资组合里有很多一直长期存在的投资,而大型机就是这么一个例子,与ERP、CRM和SCM这些系统一样演变至今。而如果大型机不想被公司或者架构遗弃,它就必须展示在现有投资环境中的价值。而VMware的许多客户在使用大型机上都遇到了速度、规模和开销的问题,但是并不是没有途径去解决这些问题,比如像vFabric SQLFire这样的内存大数据网络就可以被嵌入或者使用分布式缓存途径去解决类似队列的高速摄取、促进大型机的批处理或实时分析报告这些问题。

4. 虚拟化会导致性能下降

Hadoop最初的设计只是在实体服务器上运行,然而随着越来越多机构的采用,许多公司都希望它能作为数据中心服务在云中运行。为什么这么多的公司都希望虚拟化Hadoop?首先要考虑管理基础设施的扩展性,VMware快速的认识到扩展计算资源,比如虚拟Hadoop节点,当数据和计算分开时会对性能有所帮助,否则如果你关闭某个Hadoop节点将丢失上面的所有数据或者添加一个没有数据的空节点。而鉴于这个原因,许多来自MapR、Hortonworks、Cloudera和Greenplum的专业Hadoop发行版都支持 Project Serengeti和 Hadoop Virtualization Extensions(HVE)。

5. Hadoop只可以在数据中心运行

首先,存在SaaS云服务解决方案。许多云服务允许你云端运行Hadoop、SQL,这无疑可以帮助你省下数据中心建造投资的时间和金钱。对于一个公有云运行时,Java开发者可以从Spring Data for Hadoop以及一些其它的GitHub中的用例获益。

6. Hadoop对虚拟化毫无经济价值

Hadoop通常解释在一堆商用服务器上运行,这样就会有人认为添加一个虚拟层在带来额外支出的同时并不会有额外的价值收益。用这个观点看是存在缺陷的,你并没有考虑到数据和数据分析事实上都是动态的。想成为一个利用Hadoop能量去成长、创新及创造效率的公司,你必须改变数据的来源、分析的速度等等。虚拟化基础设施同样可以减少物理硬件的封装,让CAPEX直接等于纯粹的商用硬件,而通过自动以及更搞笑的利用共享基础设施同样可以减少OPEX(运营成本)。

7. Hadoop不可以在SAN或NAS上运行

Hadoop在本地磁盘上运行,对于中小型集群它同样可以在一个共享的SAN环境下运行良好。而高带宽比如10GB Ethernet、PoE以及iSCSI对性能同样有很好的支持。

总结

宣传异或是炒作只能作为接受新事物的参考,在做决策之前必须进行深入的了解和分析。被流言所迷惑而做出错误的决策,必然会让投资陷入危险的境地。 

原文链接: 7 Myths on Big Data—Avoiding Bad Hadoop and Cloud Analytics Decisions(编译/仲浩 审校/王旭东)

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名! 

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “ 

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加! 

腾讯大数据之TDW计算引擎解析——Shuffle AMD APU14 BEIJING技术创新大会精彩看点 这是云整合时代开始的节奏吗?Rackspace考虑退出 一周热点:如何使用15美元每月的机器实现百万文档检索 黑客获取数据信息的目的和进攻手段及应对之策 Surface Pro 3遭大曝光:799$起、四色可选、12寸屏幕 当软件遇上设计,浅谈敏捷UX VS.精益UX DIY“物联网”——自己动手处理传感器数据 AMD成首家X86+ARM双架构计算 欲寻新蓝海 锤子手机发布:Smartisan T1与其背后的开发团队 第六届中国云计算大会在北京隆重举行 替代笔记本的Surface Pro 3:800g、9.1mm,极致轻薄 PWorld2014:畅谈企业软件向“大平台”+“微应用”变革 微软公司全球资深副总裁张亚勤:云计算引领互联网物理化 亚马逊网络服务全球市场副总裁Ariel Kelman:亚马逊AWS云服务推动创新 终超苹果,谷歌成全球最有价值品牌 高通业务拓展总监沈周全:以软件为基础建立差异化优势 设计你所需要的,而不是你想要的 疯狂谷歌建广告天网:电冰箱、汽车仪表盘、恒温器、眼镜和手表 开发者眼中的编程语言…… 寻下一突破口?黑莓推Project Ion项目,正式进军物联网 无人驾驶汽车真的要来了:飞思卡尔研制视觉芯片 支持物联网开发! Qt发布5.3版与嵌入式企业版 5月23日:Java已经19岁啦! Google发布Dart1.4版本,新增Observatory工具 《近匠》Mixtile:跑在盒子中的嵌入式平台 从研发、平台化到营销:移动时代,汽车厂商如何升级? CTO俱乐部“云计算创新与实践”沙龙:云计算的发展趋势与那些“坑” 一周消息树:大型网站系统与Java中间件 良心推荐:6款基于云的移动应用开发工具 Google Project Tango第二弹:可生成3D图像的平板电脑 水晶报表的两个小问题? 怎样向Foxpro表中添加float型数据? 离开 论坛 散分【十】 问一个和Session有关的问题,达人请进 在宏里把ie关闭。非常感谢 如何让window.showModalDialog的page提交数据到原来的父页面? 合租住房!! 有没有一个命令直接解开iso文件或提取里面的一个文件或文件夹 请给看看程序:AVI视频的读取和重建 如何显示出电脑内已经注册的dll文件列表? 中程浮点数问题! solaris下CC编译器的问题? UML的书籍和软件? 那里有vs.net2003的vss6.0d版本? 有时候exe文件不能运行? 自己准备写一个工资发放和发布的程序,欢迎探讨. 襄儿妹妹还在吗?幸好偶这个马甲还有点分,全给你吧,这个ID密码她不知道呵呵~~~ 关于linux WEB服务器名的问题? 请教ATL中CBindStatusCallback的问题 我的IE不能打开新窗口?用鼠标左键点击超链接没有反应? 我的项目改变目录后打不开,怎么办? 多CPU机器,同时可有几个线程处于运行状态? 高分求高效高斯模糊算法。。 如何判断软件是否过期 是不是运行ASP.Net应用的服务器必须安装.Net FrameWork呢?还是只要有Win2000 Server和IIS就行。 谈情说爱 清除内存中用call调用的脚本文件? 一个很老的问题,如何避免CListCtrl闪烁。 请大家给看看程序:avi视频读取和重建 研究数字图像处理应该那些知识? 图片上传并显示实例(VB+SqlServer2000) SQL语言中 怎样将CHAR型转换成INT型? 級連更新... 怎么实现回车自动跳到下一个位置 如何在光标处插入字符? CSSCLASS高手关注,我想把ListBox、DropDownList样式改为平面,而且颜色边框为1颜色不为灰色,用CssClass具体怎么写呢?越详细越好?多谢 求一招:::怎么对付那些那了代码就不给钱的家伙???? =========发誓:远离csdn!================ phpmyadmin为何安装不成功? 谁有crystal reports的电子书。 这个radio的返回值是什么? 离开csdn,公布密码!!!!!!!!! 新手!求界面问题的答案! javascript面相对象的编程 IMail邮件系统的问题 七月七,我不在她身旁. 可是很想她.我爱她. 高分!求一简单问题。 今天七月七了,代表所有单身人员向全体女单身同胞问好,同时也祝成双成对的人永远快乐!! 请问php中二维数组怎么定义和初始化? 难题---SQL Panel2.Width/2;应该怎样改 九年级上学期科学开放性测试题,浙江葡萄糖.面粉、棉布在空气中会烧焦,没有、石蜡等物质经过燃后有黑烟冒出,这些现象说明什么? toward的意思 1、People hold different views towards failure in their life.这句话是什么意思?这里面的toward 是什么意思?2、Other people view repeated failures as most natural on the way towards achievement-they will keep on trying until they succe toward的中文 前赤壁赋中哪些地方表现了作者的乐观豁达就是原文的句子 文章从哪些地方表现梅葆玖的乐观的 无忧无虑是不是表示心情的? 填空:汉武帝时代,在大将( )和( )的率领下多次打败匈奴汉武帝时代,在大将( )和( )的率领下多次打败匈奴 汉武帝时期3次讨伐匈奴的时间,将领分别是? 管理科学学派的主要目标是什么 爱好的利与弊 大学英语作文250words 美被爆在驻华使领馆搞监听美媒:十年后大学啥样? 网络授课 学巴基斯坦愿率先加入中国空间站昔日嫩模兽兽近照 皮肤松弛显老态越来听中国学者回击菲“九段线”质疑贵阳小学现黑板报外包 评论称扼杀学生受吉林地震影响 哈尔滨铁路局紧急扣停青岛涉黑头目张韶军一审死刑 其余16韩国总统朴槿惠:将查清国情院涉嫌干政美媒称奥巴马支持率跌至新低 挫折积累罗马表新款岩螺多功能系列 向大海致敬怎么管好初创企业?11个城市坚守楼市限购阵地洗头发不用洗发水发质会变好?美食、美景、美色、美闻,四美看成都车公权“撑腰”的强拆必须叫停我今年二十七八岁,触动了太多人...日本区域012花田拍照攻略S级搭配让集体谈判成为企业的习惯牛B哄哄一家人:青梅煮酒,论天下谁是日本区域013儿时回忆S级搭配攻略海南渔业系统“拍蝇打虎” 柴油补贴或
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘