说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

盘点Hadoop生态圈:13个让大象飞起来的开源工具

HTML文档下载 WORD文档下载 PDF文档下载
借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,Hadoop生态圈得以迅速成熟,也催生了处理各种业务及数据的工具,这里带大家回顾2013年让大象飞起来的13种工具。

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地。因此,各种基于Hadoop的工具应运而生,本次为大家分享Hadoop生态系统中最常用的13个开源工具,其中包括资源调度、流计算及各种业务针对应用场景。首先,我们看资源管理相关。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。


资源统一管理/调度系统

在公司和机构中,服务器往往会因为业务逻辑被拆分为多个集群,基于数据密集型的处理框架也是不断涌现,比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4,它们诞生于不同的实验室,并各有所长。为了减少管理成本,提升资源的利用率,一个共同的想法产生——让这些框架运行在同一个集群上;因此,就有了当下众多的资源统一管理/调度系统,比如Google的Borg、Apache的YARN、Twitter的Mesos(已贡献给Apache基金会)、腾讯搜搜的Torca、 Facebook Corona(开源),本次为大家重点介绍Apache Mesos及YARN:

1. Apache Mesos

代码托管地址: Apache SVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。

2. Hadoop YARN

代码托管地址: Apache SVN

YARN又被称为MapReduce 2.0,借鉴Mesos,YARN提出了资源隔离解决方案Container,但是目前尚未成熟,仅仅提供 Java 虚拟机内存的隔离。

对比MapReduce 1.x,YARN架构在客户端上并未做太大的改变,在调用 API 及接口上还保持大部分的兼容,然而在YARN中,开发人员使用 ResourceManager、ApplicationMaster 与 NodeManager代替了原框架中核心的 JobTracker 和 TaskTracker。其中 ResourceManager 是一个中心的服务,负责调度、启动每一个 Job 所属的 ApplicationMaster,另外还监控 ApplicationMaster 的存在情况;NodeManager负责 Container 状态的维护,并向 RM 保持心跳。ApplicationMaster 负责一个 Job 生命周期内的所有工作,类似老的框架中 JobTracker。

Hadoop上的实时解决方案

前面我们有说过,在互联网公司中基于业务逻辑需求,企业往往会采用多种计算框架,比如从事搜索业务的公司:网页索引建立用MapReduce,自然语言处理用Spark等。本节为大家分享的则是Storm、Impala、Spark三个框架:

3. Cloudera Impala

代码托管地址: GitHub

Impala是由Cloudera开发,一个开源的Massively Parallel Processing(MPP)查询引擎 。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax),可以直接在HDFS或HBase上提供快速、交互式SQL查询。Impala是在Dremel的启发下开发的,第一个版本发布于2012年末。

Impala不再使用缓慢的Hive+MapReduce批处理,而是通过与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。

4. Spark

代码托管地址: Apache

Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现,使用Scala作为应用框架。

Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

5. Storm

代码托管地址: GitHub

Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter捕获。Storm属于流处理平台,多用于实时计算并更新数据库。Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

Hadoop上的其它解决方案

就像前文说,基于业务对实时的需求,各个实验室发明了Storm、Impala、Spark、Samza等流实时处理工具。而本节我们将分享的是实验室基于性能、兼容性、数据类型研究的开源解决方案,其中包括Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari。

6. Shark

代码托管地址: GitHub

Shark,代表了“Hive on Spark”,一个专为Spark打造的大规模数据仓库系统,兼容Apache Hive。无需修改现有的数据或者查询,就可以用100倍的速度执行Hive QL。

Shark支持Hive查询语言、元存储、序列化格式及自定义函数,与现有Hive部署无缝集成,是一个更快、更强大的替代方案。

7. Phoenix

代码托管地址: GitHub

Phoenix是构建在Apache HBase之上的一个SQL中间层,完全使用Java编写,提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。Phoenix完全托管在GitHub之上。

Phoenix值得关注的特性包括:1,嵌入式的JDBC驱动,实现了大部分的java.sql接口,包括元数据API;2,可以通过多个行键或是键/值单元对列进行建模;3,DDL支持;4,版本化的模式仓库;5,DML支持;5,通过客户端的批处理实现的有限的事务支持;6,紧跟ANSI SQL标准。

8. Apache Accumulo

代码托管地址: Apache SVN

Apache Accumulo是一个可靠的、可伸缩的、高性能、排序分布式的键值存储解决方案,基于单元访问控制以及可定制的服务器端处理。使用 Google BigTable设计思路,基于Apache Hadoop、Zookeeper和Thrift构建。Accumulo最早由NSA开发,后被捐献给了Apache基金会。

对比Google BigTable,Accumulo主要提升在基于单元的访问及服务器端的编程机制,后一处修改让Accumulo可以在数据处理过程中任意点修改键值对。

9. Apache Drill

代码托管地址: GitHub

本质上,Apache Drill是Google Dremel的开源实现,本质是一个分布式的mpp查询层,支持SQL及一些用于NoSQL和Hadoop数据存储系统上的语言,将有助于Hadoop用户实现更快查询海量数据集的目的。当下Drill还只能算上一个框架,只包含了Drill愿景中的初始功能。

Drill的目的在于支持更广泛的数据源、数据格式及查询语言,可以通过对PB字节数据的快速扫描(大约几秒内)完成相关分析,将是一个专为互动分析大型数据集的分布式系统。

10. Apache Giraph

代码托管地址: GitHub

Apache Giraph是一个可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel,与它们 区别于则是是开源、基于 Hadoop 的架构等。

Giraph处理平台适用于运行大规模的逻辑计算,比如页面排行、共享链接、基于个性化排行等。Giraph专注于社交图计算,被Facebook作为其Open Graph工具的核心,几分钟内处理数万亿次用户及其行为之间的连接。

11. Apache Hama

代码托管地址: GitHub

Apache Hama是一个建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。集群环境中的系统架构由 BSPMaster/GroomServer(Computation Engine)、Zookeeper(Distributed Locking)、HDFS/HBase(Storage Systems)这3大块组成。

12. Apache Tez

代码托管地址: GitHub

Apache Tez是基于Hadoop Yarn之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,减少任务的运行时间。由Hortonworks开发并提供主要支持。

13. Apache Ambari

代码托管地址: Apache SVN

Apache Ambari是一个供应、管理和监视Apache Hadoop集群的开源框架,它提供一个直观的操作工具和一个健壮的Hadoop API,可以隐藏复杂的Hadoop操作,使集群操作大大简化,首个版本发布于2012年6月。

Apache Ambari现在是一个Apache的顶级项目,早在2011年8月,Hortonworks引进Ambari作为Apache Incubator项目,制定了Hadoop集群极致简单管理的愿景。在两年多的开发社区显著成长,从一个小团队,成长为Hortonworks各种组织的贡献者。Ambari用户群一直在稳步增长,许多机构依靠Ambari在其大型数据中心大规模部署和管理Hadoop集群。

目前Apache Ambari支持的Hadoop组件包括:HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig及Sqoop。(文/仲浩 审校/周小璐)

叫板Google,VMware15亿美元收购AirWatch强势布局物联网 2014年IT企业招聘调查报告:外资企业招聘规模偏大、技术人员比重高 小机器人Ozobot:Maybe,我也有禅意 Google 4亿美元收购人工智能初创公司DeepMind 加入初创企业前,自问四个问题 King.com维权 上演“贼喊捉贼” 淘宝:HBase Bulkload bug修复及patch提交 Google的“机器人情结”:两次合计36亿美元的人工智能收购 挑战谷歌、抢占新兴市场,百度进军泰国、巴西和埃及市场 《近匠》第8期:Unity——不再仅仅是游戏引擎 Colours:移动应用的开源“美颜相机” 微信红包活动:用户疯狂中的腾讯“阴谋” 预测2014年最热门的IT职位及年薪 智能手机有隐私?Facebook可阅读Android用户的短信内容 苹果2014年Q1财报:iPhone、iPad 销量创纪录 3D打印:鞋垫也玩私人订制 与Google Glass抗衡,三星将推Galaxy Glass 进军移动?任天堂欲推iOS、Android版超级玛丽 回顾2013:云计算的夏天 微软最终加入OCP阵营,开源其云服务器设计 Docker:集装箱式“运输”在软件上的实现 《近匠》第09期:ShareSDK——专注社交分享工具 苹果车载iOS系统iOS in the Car界面被曝光 支撑过万亿音乐事件的数据分析系统 Facebook运维内幕曝光:一人管理2万台服务器 《近匠》第10期:友盟——开发服务平台化 LinkedIn耗资1.2亿收购数据驱动招聘服务公司Bright 谷歌推视频会议硬件产品Chromebox 基于Chrome OS 文件上传组件导致Apache DoS安全漏洞 EA,你是来拉仇恨的吗? Beep:前Google员工打造的流媒体音乐控制器 请问delphi怎么读取xml文件中的内容? IBM软件清库存(大优惠) 〉〉〉〉〉〉〉〉求一份对旧系统进行分析、整合、优化的文档 又是闪烁,头大! 简单问题,请紧急指导.(在线) help help : fortran + dll = ? 奇怪的现象:判断不了SQL sum()查询结果!!! 2003高考试题 设置访问表命令:“access-list 2 permit 10.0.0.0 0.0.0.255”中10.0.0.0 和 0.0.0.255分别指什么? 请问谁知道这是什么缘故啊? 如何计算cpu和memory的一般的使用上限 在delphi中使用什么报表控件打印的报表效果较好 谁知道db或dbf头文件的格式? 急急 NMFtp中我想从ftp服务器下载指定文件扩展名的文件,该怎么办? 初始化页面的时候,如何使TextMode="Password"的asp:textbox有默认值显示? IBM软件清库存(大优惠) 又是可恶的乱码问题 struts与数据库!在线等待! 如何开发asp.net程序(基于vb) vc++的链接错误 如何用程序动态的获得activex控件的方法属性事件信息 请教:使用web.xml做资源约束时如何由自己的程序来做用户验证 请问:怎样编程来来虚拟网卡? 急!创建LOOKUP的问题 如何计算cpu和memory的一般的使用上限 新问题请教! 老问题:从Excel文件里把数据导入导数据库中 有汇编玩的非常牛的人吗??? 字符串操作的简单问题 学习J2EE需要装什么软件? >>有关记录的问题??<< 请高手指教:出现“ORA12663:服务器未提供客户机要求的服务”问题,怎么解决? 大侠救我! 动态sql问题请教,谢谢 填充combobox的问题 windowsxp不能创建拨号连接 怎樣轉換時間格式 ACCESS问题 Linux下上网问题?在线等待!急!急!急! 终极讨论:从Excel文件里面导入数据 winsock的问题 关于WINDOWS下邮件程序编写问题 Solaris下的Makefile问题 在lan里面的两台主机之间怎么配ppp连接,没有modem 我的SQL数据库安装的是实例,好象有问题哦! 高分求票据、合同套打代码! 事务问题,请大家帮忙,在线等待,50分相送!!!! xml解析的问题? 关于CRuntimeClass,请指教。 100分求解(在线等待) 终极讨论:从Excel文件里面导入数据 数学中 钝角假设和锐角假设是指什么?谢谢.在看黎曼几何和罗巴切夫斯基几何简介的时候看到的名词. 2009初二寒假英语日记5篇 我英语不是非常好 想考本科但是要过英语a及 求方法如题 命题p:任意x∈R,x^2≥0.命题p的否定和非p分别是怎样的?我主要想搞清楚这种命题里,“否定”和“非”的区别是什么... 寒假日记(英语)5篇(初二)带翻译.不要复制的.记得要是想个国中生写得.不要跟外国人写的一样. suggestion怎么用 萍果手机发短信,怎么没有汉字、只有拼音? sb with sb+is sb and 已知二次函数 f(x),f(1)=4,f(2)=7,f(-1)=10.求这个二次函数的解析式 高数 拉格朗日乘数法(2元的)推理疑问与(7)一行的 fy(X0,y0)+λφy(x0,y0)=0 怎么推导出来的 sb with sb +is sb and sb +are English is widely used _____ travellers and business people all over the world.A.to B.as C.by D.for 请翻译, 关于等比定律,如图记得以前有一个三角形,跟图一样,谁比谁等于谁比谁,这是求的什么,定律是什么,最好详细一点 高数 拉格朗日乘数法44题怎么算? 柔性制造单元FMC与柔性制造系统FMS有什么相同和不同?CIMS有那些基本功能模块组成? 设向量a1=(a1,b1,c1),a2=(a2,b2,c2),B1=(a1,b1,c1,d1),B2=(a2,b2,c2,d2),下列命题中正确的是()A 若a1,a2线性相关,则必有b1,b2线性相关B 若a1,a2线性无关,则必有b1,b2线性无关c 若a1,a2线性相关,则必有b1,b2线性无关d 1.已知“命题p:(x-m)^2>3(x-m)”是“命题q:x^2+3x-43(x-m)”是“命题q:x^2+3x-4 这是哪国的语言啊,做了一个奇怪的梦,梦中的外国人给我讲了很多,只记住一句.WU MI TANG 乌咪汤 什么是等比定理初中学过的,一不小心给忘了 已知点O(2x,y²+4)与点Q(x²+1,-4y)关于坐标原点对称,试求x+y的值 After discussion,his suggestion is that his brother ( ) to the front.A sendingB should sendC sendD be sent 爱莲说中歌颂的是莲花,却几次提到了菊花和莲花,其用意是什么 “阳奉阴陪”这个词语的一、三两个字意思相反,二、四两个字意思相反,请写三个这样的词语:天南地北 上行下效南辕北辙南来北往厚此薄彼 在三角形ABC中,已知c=根号2+根号6,C=60度,求a+b的取值范围. 等比数列的原理(要详细 英语翻译Specious,however,has the negative suggestion of using deception to make something false appear true. 英语翻译中远物流是我国最大的中外合资第三方物流企业,随着市场竞争的加剧,企业纷纷在创新战略、加强增值服务上下功夫.中远集团为了更好的物流服务在国内、国际市场中赢得竞争优势, 函数f(x)=2√3sinxcosx-2sin²x,x∈R.(1)求f(x)的单调减区间与对称中心;(2)用五点法画出f(x)在[0,π]的图像. 翻译:1.你真好,给了我这么多建议(suggestion) 2.请代我向你的父母问好.(regards) 养怡之福可得永年怎样理解 陶渊明的 爱莲说为什么里面主要说的是喜欢菊花 而不说莲花呢? 请帮忙将Serving suggestion翻译成阿拉伯文, 英语翻译1、图片中使用白盒代替彩盒2、这种包装方式不能通过drop test3、详细包装方式,请查看附件的说明4、由于我们没有做过12pcs的包装方式,所以我们没有Die-lines,但我可以提供Color box的参 name that place 帮忙翻译给领导的建议信件我认为我们缺少一个关于XXX的标准文档.以此文档来约束XX的流程、记录客户需求、相关责任人和问题的解决日期.I consider that we need a formular standard document about XXX.It' 英语翻译This email is to confirm that your email has been received.If you are applying for an advertised vacancy please ensure you attach your CV and supporting documentation.Please note the company does not accept prospective applications. No one was aware_________Jane had gone.A.where that B.of the place C.of where D.the place 谁可以同时用上眉清目秀、红光满面、大步流星、心旷神怡造句急用! 曹操的"盈缩之期,不但在天;养怡之福,可得永年."是什摸意思? 22短文两篇第二课时爱莲说,陶渊明为什么独爱菊花 眉清目秀、红光满面、大步流星、心旷神怡怎样造句? “盈缩之期,不但在天;养怡之福,可得永年.幸甚至哉,歌以咏志.”意思. It got its name from the wooden fence that stood where the street now 翻译成英文“准确定位细分市场” 导入柔性化管理机制,以适应市场快速变化的需求.(翻译英文,误用翻译软件) 怎么理解“你的心里只有你”这句话?好吧,俩高二学生,约定高考后双方都没男女朋友的话便在一起,现在双方依旧没男女朋友,都开始为重本冲刺.但我写了一本青春纪念册,关于我和她的很多事 眉清目秀、疾步如飞、口若悬河造句 已知二次函数f(x)满足f(0)=f(4),且f(x)=0的两根平方和为10,图像经过(0,3)点,求f(x)的解析式如题 这表情什么意思! 英语完型 求讲解 英语翻译刚刚在微信里头看到前世是怎么死的,由于蛮无聊的,就测了一下,出来的是 粤语 笑西死,你前世既然一棵桉树,= =能帮我翻译一下吗,人家测出来的再奇葩好歹也是国语,这粤语...真心蛮 π_π……这表情是指什么意思?我送了一份礼物给心上人,是条白色长裙,她发来这个表情π_π…… 1.甲数和乙数的比是2:3,甲数占乙数的几分之几,乙数比甲数多( ),甲数比乙数少几分之几.2.小明五分之一小时走了十五分之七千米,他一小时走( )千米,走一千米要( )小时. 已知二次函数f(x)满足f(0)=f(4),且f(x)=0的两个平方和为10,图像经过(0,3)点,求f(x)的解析式. 😪这是个什么表情?什么意思? 大拇指只有两个关节,这样的结构,有什么好处?回答完整一些 考好英语笔试部分的窍门 方法 欧式几何和罗巴切夫斯基几何和黎曼几何各有什么特点,都适用什么范围, 二年级寒假关于新闻的日记(5篇) 如何使用suggestion 俄印蒙三国总理同日访华非偶然 政治意同济大学开启中美共建全科医学系计划南京大学两位院士候选人就论文是否造假无业男子为供养情妇和私生子 诈骗父母各省区市通报违反八项规定典型 多涉违“中国西藏文化周”在德国柏林开幕 俞冷空气今晚降临杭城 早出晚归的人出门柳岩顶寒风爆乳露背装性感出席优雅盛典众女星冒零度严寒抛胸露背出席优雅盛典日本外务省网上传播争岛视频 引发中韩中关村被卡女子确认脑死 家属否认其有美国称全美近600只宠物疑因食用中国北京脖子卡护栏女子脑死亡 家属称不相慈溪公司老总险被绑架 主谋是自己昔日垂涎女孩美色 男子宁波当街袭胸总在肯德基过夜的流浪女诞下龙凤胎 帮国内唯一留存最完整红色刊物在温州埋藏西湖龙井红茶开始崭露头角 价格每斤8温州金改进展:民营银行方案已上报或将今年年底杭州-深圳每天开行6对动车 124套,成交量创5年新低 房博会“美联储加息,土总统强硬不撤军,原油奄南京警方突袭传销窝点 团伙成员拍照报任正非:国外大老板成天打高尔夫,中国团伙谎称桥梁断裂火车停运 骗旅客高价贵州“十三五”规划纲要在京问计专家 将科技创新转化为企业生产力 循环经济女生年薪20万专教人谈恋爱 自己没谈贵州:推进信息基础设施大会战 迈入\农户“多收三五斗”的忧愁:粮库收不下贵州力争3年提升就诊环境 挂号交费不上海路边现25条眼镜蛇 疑似行善者放《中国中小城市绿皮书2015》 发布贵阳燃气或实行阶梯价 明年1月将召开杭州:偷笋人太多防不胜防 植物园20全国最低工资标准排行榜出炉 山东河南牛市市长:两市成交持续萎靡 弱势震荡男子带火腿肠进超市被当小偷 遭罚款举广州养殖户买到假兽药 致1.8万只鸭贵州人和迁入京城紧锣密鼓 主场锁定丰媒体:忽视“未婚妈妈”问题是社会的失道安高速建设架起经济发展农民增收高速
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘