说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

盘点Hadoop生态圈:13个让大象飞起来的开源工具

HTML文档下载 WORD文档下载 PDF文档下载
借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,Hadoop生态圈得以迅速成熟,也催生了处理各种业务及数据的工具,这里带大家回顾2013年让大象飞起来的13种工具。

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地。因此,各种基于Hadoop的工具应运而生,本次为大家分享Hadoop生态系统中最常用的13个开源工具,其中包括资源调度、流计算及各种业务针对应用场景。首先,我们看资源管理相关。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。


资源统一管理/调度系统

在公司和机构中,服务器往往会因为业务逻辑被拆分为多个集群,基于数据密集型的处理框架也是不断涌现,比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4,它们诞生于不同的实验室,并各有所长。为了减少管理成本,提升资源的利用率,一个共同的想法产生——让这些框架运行在同一个集群上;因此,就有了当下众多的资源统一管理/调度系统,比如Google的Borg、Apache的YARN、Twitter的Mesos(已贡献给Apache基金会)、腾讯搜搜的Torca、 Facebook Corona(开源),本次为大家重点介绍Apache Mesos及YARN:

1. Apache Mesos

代码托管地址: Apache SVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。

2. Hadoop YARN

代码托管地址: Apache SVN

YARN又被称为MapReduce 2.0,借鉴Mesos,YARN提出了资源隔离解决方案Container,但是目前尚未成熟,仅仅提供 Java 虚拟机内存的隔离。

对比MapReduce 1.x,YARN架构在客户端上并未做太大的改变,在调用 API 及接口上还保持大部分的兼容,然而在YARN中,开发人员使用 ResourceManager、ApplicationMaster 与 NodeManager代替了原框架中核心的 JobTracker 和 TaskTracker。其中 ResourceManager 是一个中心的服务,负责调度、启动每一个 Job 所属的 ApplicationMaster,另外还监控 ApplicationMaster 的存在情况;NodeManager负责 Container 状态的维护,并向 RM 保持心跳。ApplicationMaster 负责一个 Job 生命周期内的所有工作,类似老的框架中 JobTracker。

Hadoop上的实时解决方案

前面我们有说过,在互联网公司中基于业务逻辑需求,企业往往会采用多种计算框架,比如从事搜索业务的公司:网页索引建立用MapReduce,自然语言处理用Spark等。本节为大家分享的则是Storm、Impala、Spark三个框架:

3. Cloudera Impala

代码托管地址: GitHub

Impala是由Cloudera开发,一个开源的Massively Parallel Processing(MPP)查询引擎 。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax),可以直接在HDFS或HBase上提供快速、交互式SQL查询。Impala是在Dremel的启发下开发的,第一个版本发布于2012年末。

Impala不再使用缓慢的Hive+MapReduce批处理,而是通过与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。

4. Spark

代码托管地址: Apache

Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现,使用Scala作为应用框架。

Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

5. Storm

代码托管地址: GitHub

Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter捕获。Storm属于流处理平台,多用于实时计算并更新数据库。Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

Hadoop上的其它解决方案

就像前文说,基于业务对实时的需求,各个实验室发明了Storm、Impala、Spark、Samza等流实时处理工具。而本节我们将分享的是实验室基于性能、兼容性、数据类型研究的开源解决方案,其中包括Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari。

6. Shark

代码托管地址: GitHub

Shark,代表了“Hive on Spark”,一个专为Spark打造的大规模数据仓库系统,兼容Apache Hive。无需修改现有的数据或者查询,就可以用100倍的速度执行Hive QL。

Shark支持Hive查询语言、元存储、序列化格式及自定义函数,与现有Hive部署无缝集成,是一个更快、更强大的替代方案。

7. Phoenix

代码托管地址: GitHub

Phoenix是构建在Apache HBase之上的一个SQL中间层,完全使用Java编写,提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。Phoenix完全托管在GitHub之上。

Phoenix值得关注的特性包括:1,嵌入式的JDBC驱动,实现了大部分的java.sql接口,包括元数据API;2,可以通过多个行键或是键/值单元对列进行建模;3,DDL支持;4,版本化的模式仓库;5,DML支持;5,通过客户端的批处理实现的有限的事务支持;6,紧跟ANSI SQL标准。

8. Apache Accumulo

代码托管地址: Apache SVN

Apache Accumulo是一个可靠的、可伸缩的、高性能、排序分布式的键值存储解决方案,基于单元访问控制以及可定制的服务器端处理。使用 Google BigTable设计思路,基于Apache Hadoop、Zookeeper和Thrift构建。Accumulo最早由NSA开发,后被捐献给了Apache基金会。

对比Google BigTable,Accumulo主要提升在基于单元的访问及服务器端的编程机制,后一处修改让Accumulo可以在数据处理过程中任意点修改键值对。

9. Apache Drill

代码托管地址: GitHub

本质上,Apache Drill是Google Dremel的开源实现,本质是一个分布式的mpp查询层,支持SQL及一些用于NoSQL和Hadoop数据存储系统上的语言,将有助于Hadoop用户实现更快查询海量数据集的目的。当下Drill还只能算上一个框架,只包含了Drill愿景中的初始功能。

Drill的目的在于支持更广泛的数据源、数据格式及查询语言,可以通过对PB字节数据的快速扫描(大约几秒内)完成相关分析,将是一个专为互动分析大型数据集的分布式系统。

10. Apache Giraph

代码托管地址: GitHub

Apache Giraph是一个可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel,与它们 区别于则是是开源、基于 Hadoop 的架构等。

Giraph处理平台适用于运行大规模的逻辑计算,比如页面排行、共享链接、基于个性化排行等。Giraph专注于社交图计算,被Facebook作为其Open Graph工具的核心,几分钟内处理数万亿次用户及其行为之间的连接。

11. Apache Hama

代码托管地址: GitHub

Apache Hama是一个建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。集群环境中的系统架构由 BSPMaster/GroomServer(Computation Engine)、Zookeeper(Distributed Locking)、HDFS/HBase(Storage Systems)这3大块组成。

12. Apache Tez

代码托管地址: GitHub

Apache Tez是基于Hadoop Yarn之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,减少任务的运行时间。由Hortonworks开发并提供主要支持。

13. Apache Ambari

代码托管地址: Apache SVN

Apache Ambari是一个供应、管理和监视Apache Hadoop集群的开源框架,它提供一个直观的操作工具和一个健壮的Hadoop API,可以隐藏复杂的Hadoop操作,使集群操作大大简化,首个版本发布于2012年6月。

Apache Ambari现在是一个Apache的顶级项目,早在2011年8月,Hortonworks引进Ambari作为Apache Incubator项目,制定了Hadoop集群极致简单管理的愿景。在两年多的开发社区显著成长,从一个小团队,成长为Hortonworks各种组织的贡献者。Ambari用户群一直在稳步增长,许多机构依靠Ambari在其大型数据中心大规模部署和管理Hadoop集群。

目前Apache Ambari支持的Hadoop组件包括:HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig及Sqoop。(文/仲浩 审校/周小璐)

盘点EMC World 2014三大看点 2014年Q1:智能手机总销量下滑,WP同比反增119% 着眼无人驾驶技术 英特尔投资日本ZMP公司 移动云服务UCloud快速扩张 成立北京分公司 精准推送 个推推出2.0产品“Smart Push” 从张小龙的七大价值观说开去 2014高德LBS应用大赛正式启动 助力打造生态圈 专访永洪科技CEO何春涛:管理者的炼成及国内大数据公司的挑战 R语言如何发展?商业支持或许可行 专访InMobi CEO Naveen Tewari:Banner广告已经OUT 效力苹果18年的资深高管Katie Cotton将退休 主打“全、新、独、准”,华为推出游戏中心平台 阿里云计算出海挑战亚马逊 首站香港及东南亚 TIOBE 2014年5月编程语言排行榜:Adobe ActionScript挤进Top20 秒杀iPad Mini?微软或将下月发布Surface Mini 大道手游:详解应用内购买的定价趋势与技巧 与英特尔软硬合作,Cloudera将在中国建立业务机构 准备迎接第一个量子计算软件公司吧! 搜狗搜索发布新LOGO和移动App 正全面入驻腾讯各条产品线 做好扁平化设计-视觉篇 关于敏捷研发的跨界反思 《近匠》雨血,一个“独立游戏人”的反思 一周消息树: 阿里巴巴赴美IPO的种种及马云内部邮件全文 一周热点:准备迎接第一个量子计算软件公司吧! 【云先锋】多备份:云端数据物流平台为企业提供云备份服务 不容错过!开发者必备的十二大开发资源 为Canvas而生:开源2D HTML5渲染引擎CutJS 第九届中国互联网创业者大会在京举办 腾讯发布“三驾马车”组合拳产品 入手Beats,苹果史上最大手笔收购为哪般? Gmail有生以来最大手术 全新设计曝光 Python开发者最常犯的10个错误 关于指针问题 有点搞不懂了!! switch的简单问题 在哪里添加全局函数 两个asp.net问题,请高手一定解答! 关于Treeview的几个问题? 怎样才能实现按返回按钮以后,自动刷新刚刚提交的页面!代码如下,请帮我改改! HELP!!! 请问VB关闭WINDOWS下面的所有窗口的命令是什么?谢谢 数据移植问题,多帮忙呀! 问来问去,也没问出个所以然来。干脆再简化一下问题吧。 如何制做帮助文件? 一个XML绑定数据集的问题? 多层数据库一问!!!!!!!!!!!!!!!!!!!!!!!!!! 关于winvnc(在线等待) 请问“数据结构”这门课主要是学什么的? 这个毛病是什么原因?(加急,肯请赐教) 在线等候?自定义控件问题? 请问知道进程的ID值和句柄,能否控制程序窗口的大小? 多层数据库疑问!!!!!!!!!!!!!!!!!!!!!!!!!!! 关于IBM AS/400 DB2数据库编程 怎么从_streamptr 中恢复 recordset? 与数据库建立联接的后续问题 早上偶然看见前女友从眼前走过,突然有种莫名的感动 歌词和音乐同步问题?winnap的歌词插件基于什么样的原理做出来? 一个菜鸟的苦恼!! 用命令行配置IIS的命令是什么? 看看这个程序到底错在哪? 查找点对象问题,各位进来帮我看看 各位朋友一定请帮忙,关系到我工作问题(不是很难) 用ASP和Javascritp或Vbscript配合将SQL Server里的数据在客户端转换成EXCEL文件 Application的问题,急 谁能告诉我《银色幻想》在哪里有得下,万分感谢!!给分多多 新開一貼,sql語句請教,急,給分!!! 局域网内指定IP出现“该静态IP地址已经使用”,原理如何,如何编程实现。 一个语句的写法,up者有分 关于数据汇总的精典SQL语句求教! 有奖捉疵 50分 怎么打*****号部分的代码总不执行啊? 请问如何列举当前打印机支持的纸张信息? 歌词和音乐同步问题?winnap的歌词插件基于什么样的原理做出来? 急救!!!关于对话框中编辑框重画问题 小问题。。。。只想知道为什么。。。。 转载(贫富悬殊的中国) !!!用ASP能否实现一次上传一整个目录下所有的文件(子目录不算)?高手请答复! TreeView专题讨论 j2me中请问如果将textField中的内容写入到moto388手机的记事本中? 在vc中调用其他的exe include 另外一个jsp文件时,能向那个文件传参数吗?不能的话,有其他办法吗?谢谢 系统不能识别DaysBetween,如何处理 请问如下通过web连续下载图片,只是第一张要提示,以后每张就不再提示了? 关于ADO驱动MDAC版本的疑问 SPSS中建立ARIMA模型后如何得到残差?已用SPSS建立ARIMA模型,但是建模后需检验残差项是否为白噪声序列.建模的输出结果中没有残差(residuals),怎么办?先谢过.不好意思我没有财富值啊,请大家帮 有关SPSS中ARIMA模型的输出解读输出结果如图所示,请问模型的参数估计结果是什么,就是把模型帮我写出来, 梵高的星空介绍解说或赏析《星空》 傅里叶变换和拉布拉斯变换有什么关系 WHO来说说含参不等式的解法啊.当参数a在2次项系数前的时候~怎么讨论~当参数a不在2次项系数前的时候~怎么讨论~.最后一问`为什么有的时候讨论△有的时候讨论参数捏~我不要其他地方转的,那 中国近代国学大师有哪些 =SUMIF($C$5:C5,C5,$E$5)-SUMIF(A!C:C,C5,A!E:E)-SUMIF(B!C:C,C5,B!E:E)语句是什么意思,具体 含参不等式与参变量关系ax^2+ax+1>0,求a的取值范围没说恒等,这才是我发愁的问题 为什么梵高和几米都画过《星空》啊?有区别吗我想买电影《星空》的同款拼图 可是发现梵高和几米的都有肿么回事哈 质量为3千克的空木箱放置在水平地面上,沿水平方向施加拉力,当拉力F1=8N时,木箱静止;当拉力F1=8N时,木箱静止;当拉力F2=10.3N时,木箱做匀速运动.求:1、木箱与地面间的动摩擦因素2、木箱在8 含参数的不等式1.a(x-1)/(x-2)>2(a≤1)2.x^2-(a^2+a)x+a^3<0 中国著名的国学大师简介 高一物理,算是摩擦力的问题吧.做下面的实验并利用学过的物理知识作一解释.两手伸直手心相对放在胸前(拇指朝上),将一把尺子(一木棒、一支长铅笔均可,且不论粗细是否均匀)放在伸 含参不等式..解关于x的不等式,ax+b>cx+d 变量与常量之间有关系吗?注意不是自变量与因变量 摩擦力 的一个疑问水平面上放一个B木块,上面放一个A木块,用绳子拉动B木块(1)匀速运动,A和B保持相对静止,那么它们之间有没有静摩擦力?(2)加速运动,A和B保持相对静止,那么它们之间有 二次项系数含参不等式讨论比如ax^2-(a+1)x+1<0讨论的是a>1 零一之间什么的.那怎么知道是以一为界限分段讨论的?而不是讨论大于2 大于3怎么求这个一? 赏析梵高的《星空》赏析这幅图……要大概200字左右……http://image.baidu.com/i?ct=503316480&z=0&tn=baiduimagedetail&word=%E8%F3%B8%DF+%D0%C7%BF%D5&in=14546&cl=2&cm=1&sc=0&lm=-1&pn=5&rn=1&di=663445721&ln=522 怎样求出圆柱的体积?横截面直径为2厘米的一根钢柱,横截成两段后,表面积和为75.36平方厘米.这根钢柱原来的体积是多少立方厘米? 求这三个图形的周长和面积? 中国国学大师是谁?我想知道中国国学大师是谁? 圆柱的体积是怎么样算出来的?在就是体积=容积吗?能一样给个公式吗? 关于水井,什么叫“取水深度”静水位 到 井底的距离么?那么取水层厚度呢?就是滤水管的长度? 第三次科技革命给人们带来哪些深刻影响? =SUMIF(表1!B3:B1000,B3,表1!F3:F1000) 在单元格中设置以上公式下拉后我想变成=SUMIF(表1!B3:B1000,B4,表1!F3:F1000)在下拉变成=SUMIF(表1!B3:B1000,B5,表1!F3:F1000)也就是说固定区域B3:B1000只改变条件B5 cosx的4次方 和5次方的不定积分是好多 好像有个公式样 顺便说说sin的单和双次方的不定积分 有什么规律不 大概是这个样子的cosx^4=3/4*1/2*PAI/2 梵高《星空》的英文介绍200词左右 如何使用SUMIF函数将一个表中的价格引用到另外一个表中呢 一瓶葡萄糖等于多少水?就是医院里挂水的那种. 请问“国学”的具体定义和主要内容都是什么吗?中国的国学大师都有谁呢? 我想问一下这是什么东西? 地下探矿用的金属探测仪,探测深度10米左右的,大概多少钱?推荐一下 水平地面上的物体在水平方向受到一拉力和地面对他的摩擦力的作用.在物体处于加速状态的条件下.说法对的A,当F增大时,f也随之增大 B当F 增大时,f保持不变 c F与f 是一对作用力与反作用力 D 我想问一下这是什么语 如何测量汽车玻璃尺寸 在现代光栅光谱仪中,为什么用闪耀光栅代替平面透射光 请问EXCEL怎么用=SUMIF的公式,算出参数C和D 的总数是多少. A B 为竖列 A 3 B 1 C 2 D 2 C 5 D 8单个参数我知道, 比如要算出一共C有多少, 可以用=SUMIF(A:A,"C",B:B)但是我想知道怎么算C和D一起共有多少. 怎 “薄纱”的“薄”应该读“bao”还是“bo”?请给我有权威, 关于气压的题目,某题"要尽快排出较封闭房间内的烟雾,可以在排气扇下方的地面上":点燃一较大的蜡烛..有两个疑问 1.蜡烛所在不是应该气温高.那么气压不应该相应是小的,为什么热空气会上 两个固定的等量同种电荷,在它们连线的垂直平分线上有a、b、c三点,a点在连线中点,b点在a点上面,c点上面,比较a b c三点的电场大小 亚显微结构是什么?那些细胞器是? 国内有没有哪一家做分光光栅比较好的?光谱仪上用的! 对一组数据用matlab做傅立叶变换,我这里有一组数据,左边的是原函数x轴上的,右边的y轴上的.现在要对这组数据做傅立叶变换,并输出图像.大家看看用matlab怎么办呢?85\x052106.65355285.1\x05781.83087758 薄.简单说明什么时候读bo,什么时候读bao 水是弱电解质,但是它作溶剂后,某些溶液比如蔗糖溶液,为什么就是非电解质溶液了呢? 求阴影面积, 已知Sn是数列{an}的前n项和,点(n,Sn/n)(n∈N*)均在函数y=3x-2的图像上.求{an}的通项公式用S(n+1)减Sn怎么算,我总是算到a1=1和an=6n+1 两物体叠加在地上,当两个物体开始受不同的拉力时,那它们对相互的摩擦力是多少 excel表格公式的问题:=SUMIF($D$2:$AS$2,"销量",D3:AS3)和=SUMIF($D$2:$AS$2,"销量",D3:BE3)对于上面这两个公式,为什么我用第二个公式计算的时候到了AS列以后的数值累加不了!只能累加AS列之前的数值啊? 剥字什么时候读bao?什么时候读bo? 两个叠加的物体,对上面的物体施加拉力,物体静止两物体之间有摩擦力吗?如果2物体匀速运动,拉下面物体,上面物体不受摩擦力那谁给他的力让他前进呢 SUMIF(A$28:A94,A94,D$28: 跪求sin(t+30度)的拉普拉斯变换 硫酸钡销售有几种原料 与流水有关的诗句 SPSS时间序列模型ARIMA,专家建模为什么输出的预测结果全部一样为什么我后面输出的预测结果全部是一样的,用的时间定义是 1分钟. 求sin t 的绝对值的拉普拉斯变换RT~~ 其中ARIMA(p,d.q)中,分别如何确定呢? 利用SPSS做arima拟合,如何根据最后得到的各种参数还原出公式.比如parameter estimates里的AR1 MA1 constant对应着公式里哪些参数? 薄什么时候读bo什么时候读bao急 欧洲央行开始对欧元区124家银行进行德两大政党举行组阁谈判 默克尔称社民沙特暗示拒任“非常”是针对美国 恐与俄外交部:叙之友文件旨在煽动破坏叙问浙江宁波出台国内首个网购争议处理办法杭州破获特大涉毒涉枪案 缴获冰毒2.网友分析杭州地铁4号线开通后1号线票北极理事会秋季高官会聚焦负责任开发北被砍右手男孩:对“爸爸”没有恨 惦记被砍右手男孩:看到水果刀赶紧闭眼 看两部委取消314项省级行政事业性收费去30个国家可“说走就走” 本月底毛日本进入胖女时代 专家称或因对瘦人审阿根廷政府宣布萨缅托城铁完全由国家运英一新郎忘预约教堂 为遮丑谎称有炸弹俄总统普京要求市长们多上网杭州楼市进入大营销时代 商品房库存量浙江温岭村民收获“巨无霸”番薯 重达奶茶MM棒球帅气照 青春女神美翻了英国少年考好成绩卖关子 慈父见成绩单澳大利亚蓝山火情缓解 居民返家解救被人均每天五千,啥会这般奢华“属羊命苦”咋还有人信南京大屠杀的记忆”江苏3个重点实验室被“摘牌”用笔墨花鸟呈现生命意趣伦敦大学生抗议涨学费引骚乱尊重农民意愿引导土地有序流转他用生命书写白衣天使的担当吴江团员读书海报赛内蒙古呼格吉勒图案18年后启动再审首届中国民博会开幕高邮: “民生方程”的绿色解法加强转型期队伍管理到他的手上总能化解肺移植让肺病患者看到希望为“坚冰”被破点赞港剧明星续写《欢喜情缘》服务型检察机关诠释“园区经验”又是一年新酒到又到岁末,谨防电信诈骗苏州佳兆业让你领略港式品质生活
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘