说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Cloudera CTO:取代MapReduce 未来会加大Spark等框架投入

HTML文档下载 WORD文档下载 PDF文档下载
过去两年,Hadoop社区对MapReduce做了很多改进,但关键的改进只停留在了代码层,Spark作为MapReduce的替代品,发展很快,其拥有来自25个国家超过一百个贡献者,社区非常活跃,未来可能取代MapReduce。

【编者按】作者之前曾发表一篇文章——Hadoop生态圈中Cloudera的SQL战略,文章中,作者就已经提出了专用分布式查询处理引擎在性能上更优越,MapReduce将被取代的观点,本文作者又将MapReduce与Spark对比,MapReduce的高延迟使其无力支持交互式应用,而Spark则可以运行更多的负载,速度更快。Google、FaceBook已逐步采用Pregel和Dremel等新框架,MapReduce是否还有前途?Cloudera的首席战略官Mike Olson为我们带来了精彩分析。

以下为译文:

MapReduce的高延迟已经成为Hadoop发展的瓶颈,为当前的MapReduce寻找性能更高的替代品已成为Hadoop社区的一个共识。

MapReduce

有关MapReduce框架,最早要追溯到Google,Google将这个框架与灵活、可扩展性存储结合到一起,用以解决各类数据处理和分析任务。后来Doug Cutting和Mike Cafarella在2005年联合创立了Apache Hadoop时,采用的就是这个架构。

类似的项目,比如Apache Pig和Apache Hive,它们将专门的查询转化成可以运行在多功能MapReduce框架上的任务,同时也继承了MapReduce的可扩展性、容错能力、良好的吞吐能力还有糟糕的延迟,特别是Hive,延迟使其无力应付交互式应用。

关于MapReduce的抱怨使人们对企业数据中心和Hadoop项目的热情渐渐减少,MapReduce延迟太高,批处理模式响应也难以应对大量需要处理分析数据的应用。

Hadoop生态圈需要的是一个比MapReduce更加强大、更加灵活、更具实时性的系统。

Spark

如今MapReduce的主要替代者是Apache Spark。和MapReduce一样,它也是一个多功能引擎,但是Spark设计之初就考虑到运行更多的负载,而且速度更快。

最初的MapReduce通过简单的方式执行任务,但是本身结构严格:处理或者转化(map);同步(shuffle);以及在集群中将所有结点的结果整合到一起(reduce)。你必须将问题变成一系列MapReduce任务,然后按照顺序执行这些任务,延迟很高。在前一个任务执行完成之前,任何一个任务都无法开始,运行复杂、多阶段的应用程序很让人头疼。

一种替代方案是让开发者构建有关任务的复杂、多步有向非循环图(DAG),一次执行所有这些图,而不需要一个一个按照顺序来。这个方案避免了MapReduce中麻烦的同步问题,也使得应用程序的构建更加简单。对于DAG引擎的研究,微软在早些时候已经开始了,比如:Dryad,Dryad一直在微软内部使用,针对Bing搜索和其他托管服务。

在Spark中既包含了上述一些思想,也有一些重要的创新,比如:Spark支持跨DAG的内存数据分享,使不同任务可以以非常高的速度处理相同数据。Spark甚至支持循环数据流,这使得它能很好地处理迭代图算法(社交网络分析中常用)、机器学习和流处理,这是通过MapReduce或者其他DAG引擎是很难做到的。

Spark包含了流处理、快速故障还原、语言集成API、优化调度和传输数据等许多高级的功能。内存使用是Spark最引人注目的地方,MapReduce需要经常处理存储在磁盘上的数据,相比之下,Spark可以利用分散在集群中所有节点的大量RAM,它能够智能利用磁盘,解决溢出数据和持久性问题,这使Spark在应对负载时有了巨大的性能优势。

为什么不改进MapReduce,而要取代它?

在过去两年,Hadoop社区对MapReduce做了很多改进,但这些改进大多只是停留在了代码层,软件开发者把这称为原有代码基础上的“技术债务”,这些负债导致在原有基础上的改进只能解决一时的问题,从这个意义上讲,MapReduce实在是已经负债累累。

创建全新的代码库(无技术负债),针对当前和未来可预见的负载进行设计,这个过程相对还比较简单、风险较小。需要考虑的问题是:我们是不是真的有必要创建一个全新的项目?

作为MapReduce的替代品,Spark已经比较发展得比较成熟,拥有来自25个国家超过一百个贡献者,社区非常活跃,实际上已经没有必要去创建一个全新项目。

从长远来看,我们期望减少在MapReduce上的投入,相应增加在新框架上的投入,比如:Impala和Spark,理所当然,运行在该平台上的负载将逐渐转移到新的框架上。Google已经开始将负载从MapReduce转移到Pregel和Dremel上,而FaceBook则将负载转移到Presto上。

原文链接:MapReduce and Spark (翻译/毛梦琪 责编/魏伟)

以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。 需要购买的朋友,请抓住这最后的机会,点击报名!

2014腾讯WE大会:开启未来的五大科技发展趋势 TIOBE 2014年11月编程语言排行榜:R受大数据影响跃至12位 深圳微信开发者大会全部议程出炉 最后仅剩30个参会名额 智能硬件:一半海水,一半火焰 聚焦SDN、NFV、云安全基础架构等技术热点 2014云安全联盟高峰论坛即将召开 富Web应用开发的七大原则 应用原型设计毫无压力!开源Sketch插件管理器Sketch Toolbox 【MDCC专访】友盟副总裁焦岳:从36万款App,看今年的热门领域 一切只为经典 微信开发者大会前瞻(附议程) 从手势识别到增强现实,开发实感应用该了解的技术细节 福利来了,爱拍原创免费为iOS版手游制作宣传视频 【工具推荐】Zrender——轻量级Canvas类库,让绘图大不同! 基于Docker和CoreOS的开源PaaS平台——Deis v1.0正式发布! 微软宣布.NET开发环境开源 支持三大操作系统 爆发吧,诺基亚!前员工开发物联网新设备 详解Visual Studio Emulator for Android,微软的Mobile First! HPC China 2014完美落幕,AMD Firepro荣获好评! 揭秘微软的Container技术之一Drawbridge AWS副总裁谈数据中心网络打造 【最具价值CTO评选秀】出门问问CTO雷欣:从技术极客到核心管理的秘密 《近匠》APICloud:“云”+“端”一体的移动API提供者 Oculus移动SDK发布!John Carmack操刀、集成Unity 4.5 11月15日深圳见!深圳微信开发者大会公布全部议程 参与2014中国大数据行业大调查 BDTC门票等你拿 HTML5规范尘埃落定,5个开发工具推荐 盘点最受开发者喜爱的Android 5.0 Lollipop API IoE Day侧记:想开发智能硬件?先要弄明白这几个问题 【问底】许鹏:使用Spark+Cassandra打造高性能数据分析平台(二) 微软承诺所有Lumia WP8设备将升级至Win10,用户会买账吗? 周末,深圳微信开发者大会等您来!(参会必读+名单) 营造云安全生态链 第五届云安全联盟高峰论坛在京顺利召开 请问搞底层开发和应用开发哪个更有前途? 如何向VC的自动完成功能中加入DXSDK中的函数? 用vb做小型数据库应用程序,access做这类程序哪个更好一些?请说出理由. 关于在JBuilder9中开发嵌入式程序的问题 我想要一些用JB开发的源代码,有吗? 开发cmpp2过的高手们,关于connect命令,出错的问题, 我校一牛人**英语4**级作文!!!! 小弟刚开始接触汇编,望大家指教~ 采用CSocket进行收发出现的一个非常奇怪的问题,十万火急,急,急,急!!!! 请教DataGrid中HyperLinkColumn的用法 求助!请数据库高手回复!关于新建和复制表结构的问题!(续!) 用java写的将xml文件读入到Oracle9i中时出现如下错误。请高人指教(包括源程序) 一个简单的问题,如何显示进度? 为什么会出现这个错误啊????在线等,急。。。解决就给分。。。 两个没有人能解决的问题!靠!害得我吃不下饭! 动态的水晶报表,高高手来解一下,(快要绝种了```) 如何学好数学? 请问VS2003能安装在Windows server2003 下吗?(30分) cpu使用不断增多 为什么 如果调用Tprinter打印数据,那么怎么实现线数据预览? 两个类相互引用问题? 小问题,只要你不UP绝对有分! 为什么bind2nd(mem_fun_ref(&CLASS::Func),Para);CLASS::Func的参数不能是pass-by-(const)reference 在win-tc下编译成功的水仙花树怎么这样呢?? 请问大家JAVA SERVER端安全如何保障? 两个没有人能解决的问题!靠!害得我吃不下饭!(500分悬赏) 但在Access 中怎样查看数据库中是否存在某表? 斑竹啊斑竹, 我的帖子碍着你什么事, 你非得强结,非得把它转来转去的,你要知道,每一个帖子都是有自尊地. 莫非你就是冰棍和没头脑的叉叉叉 SUN SOLARIS下的字符显示问题,急!急!急! sos 第一次法帖,和大家聊聊我的郁闷…… 关于2000的非法操作问题 9.18深圳将组织一次爱国活动(深圳的爱国水友注意了!!!) 在线等待!编译问题! wap连接的问题!(分不够可以再加) 为什么我一开启sygate,整个网络就无法上网? VB中建立一个类,在VC中怎样引用. 为什么我的CPU总是100%? 搞笑的事实(都是真的哦)(ZT) 怎样获得程序的当前路径 请问各位JSP开发人员,一月份的时候,你们公司一般招新人不? 请问字符常量的地址如何得到 unresolved external ' ' referenced from.....是什么问题呀?在线等。 求还珠格格3下载地址?? 怎么用C#写程序来破解文件的密码?比如说excel的..... 如何在不同的应用程序之间通信, GetAsyncKeyState能否取得组合键,大侠帮忙 小弟问一下#define,#ifdef,#endif和#undef都有什么用啊? 如何阻止一个已经运行的程序再次运行? 网络问题紧急求救 我的瘟2000怎么浏览不了网页? NIE-trained teacher manner是什么形式 关于manner的几个问题首先,提供几个例句1.I don't like to talk with him; he has a very rude manner.2.It is bad manners to interrupt.3.Good manners are so important in today's society.从这几个句子中,我提炼出了,这几个信息1. 说说上‘签到’是什么意思啊?! 签到是什么意思啊?有什么用呢拜托了各位 谢谢 英语翻译I could be your sea of sandI could be your warmth of desireI could be your prayer of hopeI could be your gift to everydayI could be your tide of heavenI could be a hint of what’s to comeI could be ordinaryI could be the oneI could be yo 已知两圆x^2+y^2-6x=0与x^2+y^2-4y=m,问m取何值时,两圆相切直线y=x与圆x^2+(y-1)^2=r^2相切,求r的值 已知动圆P与M:(x+1)^2+y^2=16相切,且经过M内的定点N(1,0)1.试求动圆的圆心p的轨迹C的方程. exempli gratia在拉丁语中有数和性的变化吗exemplo?exemple?exempla?gratio?请多指教!举例不论一个或多个都是exempli gratia吗? 多多包含)某铜锌合金共10g,现要测定铜的质量分数,将100g稀硫酸分四等份依次加入盛铜锌合金的烧杯中(烧杯的质量为100g).反应过程中质量边哈如下表所示:根据上述信息计算:(1)反应 在某温度下,将36.5gCaCl2和NaCl的混合物放入230g水中完全溶解,再加入132.5g溶质质量分数为百分之20的Na2CO3溶解,恰好完全反应.计算,生成的CaCO3沉淀多少克?反应后所得溶液溶质质量分数是多少 遵义市委书记廖少华涉嫌严重违纪被免职中国控烟协会吁问责政府发红头文件摊派专家称伊利方舟工程“双屏互动”实现公首都航空长沙飞杭州航班受爆炸物威胁备“关爱母婴健康”都市月嫂进百企之走进乌克兰加入欧盟协定签署期或推迟到20马英九:做好充分准备应对大陆对台军事大学教授爆料支持转基因副部长曾受聘美66岁精神病老人在医院死亡 尸体三个央行重启7天期逆回购 “锁长放短”思温州一宝马车被撞后烧成空壳 保险过期2014中国连锁百强名单出炉 国美市场 | 中科招商再定增300亿扫货60岁还如此美丽!你好意思叫奶奶吗?最新中国十大暴利行业,你入对行了吗?创意:人类已经无法阻止斑马线了! |【吐槽】首开董事长潘利群:今年房地产插画师和她的宝贝鸟儿 | 艺术家再见,余额宝!成都进入经济飞跃时代,顶级综合体让城Eric Drooker:这些牛B的你的老婆或女朋友生气的时候会干啥?口袋特别篇之守护者麻将少女之听天妖魔完美世界之七神器末路迷途幻想乡的神们神尊天地异界复国路超能力天王周道方仙恶魔猎人系统通天至魔九龙洞旅游三孔旅游中国水准零点景区旅游烟台山旅游玉女峰旅游平谷徒步大道旅游广东会馆旅游仙人指路旅游斗山街旅游鲍家花园旅游北普陀山旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘