说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
提升服务扩展性和冗余的八个编码方向 分析数据预测未来?数据挖掘绝不是大公司的专利 揭秘LinkedIn数据科学家如何工作 为什么响应式设计对SEO有好处? SpaceX团队:想登陆火星吗?学好C++吧 可穿戴设备:越来越清晰的苹果iWatch 苹果设计师:开发者们的应用图标设计对了吗? AWS兴起之路:尚未成功 仍需努力 John Carmack:我们为什么不开发Linux游戏 最具创新力公司50强:耐克居首 Web如何成为另一个应用商店 Adobe发布Photoshop1.0.1源代码 大数据时代正在到来 微软CFO:我们的移动战略没有“B计划” TIOBE 2013年2月编程语言排行榜:历经十月Java重返第一 为让用户亲身体验产品 谷歌年底或开零售商店 谷歌推Chrome API支持HTML5实现本地离线数据存储与同步 Ubuntu开发者预览版将于月底开放下载 因Java漏洞,Facebook遭受恶意软件攻击但未泄密 HTML5预测 取代本地App将成为可能 2013年最佳实习企业:微软仅居第三 助力响应式设计:Adobe发布最新HTML5工具包 VMware控告Hortonworks恶意挖角 2013年大数据真谛:实时分析与批量处理 微软招聘信息证实Windows Blue项目正在推进 研究人员正开发永不会崩溃的计算机 Google:开发者应尽早进入可穿戴式计算 Chrome OS身世及其创始人之谜 谷歌举办Glass Foundry黑客马拉松活动 获80款Glass应用 政府和法律的干预拖慢了云计算发展 AMD打造开放的异构计算标准? 关于QuickRpt报表存盘后出现乱码的问题。 邮件监测器要怎么写?? 关于Web Browser控件 如何加快蓝点linux的安装速度 access 表中的datetime型字段在delphi中如何使用? 《windows 网络编程技术》是哪个出版社的 小弟正学socket编程,有个问题请教! 微软专家请看: Sybase数据库中的中文存储问题! 连接池在TOMCAT中不可用吗?我是新人。 简单的问题? SOS!!!!!!!!高分赠送!!请教大虾们一个有关MSSQL一个问题!! 我在VB.NET下调用弹出对话框,可是无论click确定还是取消,结果都一样,我写的有什么错误吗? 紧急寻找?????????高分求助 关于dbgril的问题。简单的问题加分哦 为什么不能编译这个头文件? 寻bmp转gif代码 vb.net做的control能在基于c#的web form中使用吗? 白痴问题:使用java有什么好处? 在线:在程序中加载任一网页,用鼠标点击任一超连接,均能捕获所点击连接的文本。该如何做? 至今,我不明白为什么使用友元(friend)函数!(50分赠送) Access如何外连接多个表 给我一个直接访问DBF文件的控件,在线等待。。。 求一sql语句! 哪位有ORACLE的帮助文件,送50分! 怎样在ListView中实现换行功能 在PB使用Word 模板(.dot)将DW_1(FreeForm风格)转换成Word文件并追加DW_2(Grid)数据 怎样可以在鼠标事件发生时获得鼠标相对应屏幕的坐标? 我想写一个组件在页面下载后将IE的始终用UF8发送项去掉且重启IE? 在视图中动态生成一个非模态对话框后怎么来得到指向该对话框的指针呢?大家来讨论好吗? 怎么实现在多台客户机上接收一台主机的屏幕? 急!!!vc进程与vb进程间通讯的好办法 软件工程硕士!!!!!!!!!!!!! 如何批执行存储过程??? 求助!!! 快找工作了,兴奋加苦恼.来寻求一点安慰. 关于动态链库问题,虽然前讨论过。但都没有得出结果。再次请高手进。 请问与数据库的连接这段程序那里错了??? sql嵌入式编程 在VB中如何修改command按钮上的字体颜色(不要用Label代替) ODBC的小问题 经过中国水利局批准,中国灌水家协会中央委员会重新选举委员,现在处于候选人提名阶段。 javascript如何继承? 请问我用PB从NOTES中提出的数据为什么是半截的?????代码如下 VC对话框问题 谁知道如何在FLASH中导入3D模型? 一个基础的问题! 主机故障 请问:怎么在linux下实现上网? 我有一个40台的局域网,上网用两个ADSL, 来看看WinInet的怪问题!!!为什么不能同时POST两个请求? 《向目的地进发》 700字左右 学校买了4张桌子和四把椅子,桌子的总价比椅子贵120元.每把椅子25元,每张桌子多少方程式怎么列? 我爱我家 老照片的故事 "在教室里应该有十把椅子"用英文怎么翻译 学校买来1张办公桌和1把椅子,—共用了120元.已知3把椅子和1张办公桌的价钱相等.1把椅子多少元? 王师傅是卖鞋的,一双鞋进价20元卖30 元,国庆节打八折,顾客来买鞋给了一张 50元的钱,王师傅没零钱,于是找邻居 换了50元零钱.事后邻居发现钱是假 的,王师傅又赔了邻居50元.请问王师 傅一共 求作文《有一次感受到爱》 600字以上! 学校买了4张桌子和4把椅子,桌子的总价比椅子贵120元.每把椅子25元,每张桌子多少钱?. 谁能给出正确答案?王师傅是卖鞋的,一双鞋进价20元卖30元,国庆节打八折,顾客来买鞋给了张50,王师傅没零钱,于是找邻居换了50元.事后邻居发现钱是假的,王师傅又赔了邻居50.请问王师傅一共亏 我爱这里的人情,500字的初中作文.两天之内.重谢. 描写春夏秋冬的好词好句好段 王师傅是卖鞋的,一双鞋进价20元卖30元,国庆节打八折!顾客来买鞋给了张50,王师傅没零钱,于是找邻居换了50元.事后邻居发现钱是假的,王师傅又赔了邻居50.请问王师傅一共亏了多少?(据说此题 以"节俭"为话题写一篇作文 初中语文作文《我找回了自信》 一双鞋进价20元卖30元,国庆节打八折,顾客来买鞋给了张50,老板没零钱,于是找邻居换了50元.事后邻居发现钱是假的,老板又赔了邻居50.请问老板一共亏了多少? 以勤俭节约,绿色环保.为话题写一篇作文.文体不限,字数800字,数求! 关于祖国我为你骄傲的作文字数;500~800字左右实在想不出来了 以坚强为话题写一篇作文与此次地震有关!500字左右~ 写一篇关于自信的作文? 祖国啊,我为你骄傲作文!500字以上 王师傅是卖鞋的,一双鞋进价20元卖30元,国庆节打八折,顾客来买了一双鞋给了一张50元的钱,王师傅没零钱,于是找邻居换了50元零钱.事后邻居发现钱是假的,王师傅又赔了邻居50元.      请 给我一份自信的作文! 作文春夏秋冬的颜色注意不是诗歌.字数400——500春夏秋冬个写一段每段要 写出你认为他们是什么颜色的为什么 在公园一条长25米的小路两侧放椅子,从起点到终点等距离放12把椅子,问相邻两把椅 请帮忙写一篇作文《自信》的作文议论的 农村春夏秋冬作文要有春夏秋冬,是农村的.在四点半之前给20分, 我也坚强 作文[自己写的]五六百字 一个凳子坐3人,一个凳子坐2人,10人坐几个凳子?列算式知道是4个凳子,就是不知道怎么列算式,只能用加减法 我真正懂得了自信坚强 作文 这一年,我懂得了坚强【是作文啊】 大概是这样的:总共有8个人,9张椅子坐成 人1 人2 人3 人4 大概是这样的:总共有8个人,9张椅子坐成 人1 人2 人3 人4 (组1) 空位 人5 人6 人7 人8 (组2) 目的是吧1换到8,2换到7,3换到6,4换到5..玩法是:组1 《那一次,我真懂得了坚强》作文? 王师傅是卖鞋的,一双鞋进价90元甩卖80元,顾客来买鞋给了张100元,王师傅没零钱,于是找邻居换了100元零钞.事后邻居发现钱是假的,王师傅又赔了邻居100元.请问王师傅一共亏了多少?(这道题目 学校买8张办公桌和18把椅子一共用去504元.已知1把椅子的价钱正好是1张办公桌的1\3,1把椅子和1张办公桌各是多少元? 求作文:老照片的故事,我收获了--, 失败让我懂得了坚强作文 反射角等于入射角这条结论有什么用途用途,比如说某样东西, 开家长会,3人做一条凳子,剩下48人没座位,5人做一条凳子,刚好坐满,几个家长几条凳子用方程 作文老照片的故事 怎样写 声音传播的反射角等于入射角有什么应用 “我每次抬起头来,总看见韩麦尔先生坐在椅子里,一动也不动,瞪着眼看周围的东西,好像要把这小教室里的东西都装在眼里带走似的.”以韩麦尔先生为第一人称,韩麦尔先生此刻在想什么 好的 我为我自己骄傲作文400字 入射角等于反射角在生活中的应用反射角等于入射角 前面说错了 最好能有三四个例子 韩麦尔先生坐在椅子里 一动也不动 瞪着眼看周围的东西 好像要把这小教室里的东西都装在眼睛里带走似的所使用的描写方法 商店购进一批鞋,每双进价6.5元,售价7.4元,当卖到只剩下5双时,已获利76.5元,这批鞋共有几双 ——(要填一个词),我感谢你600字作文(有小标题) 初中作文:自信的我.大概600字左右..希望文采好的高手来.我只做参考..好的加分!~~~~~ 商店购进一批鞋,每双进价6.5元,售价7.4元,当卖到只剩下5双时,已获利44元,这批鞋共几双? 写家庭人物的作文可以写父母,弟弟或姐姐,外公外婆等等 ,写人最好带上批注谢谢了.最好3篇 好习惯的作文开头、结尾【紧急】 商店购进一批鞋,每双进价6.5元,售价7.4元,当卖到只剩下5双时,已获利44元,这批鞋共有多少双?列出算式 请你把这些椅子拿到教室去好吗?英语翻译 以习惯为话题的作文知道的速度!以习惯为话题的作文速度 一批鞋,每双进价6.5元,售价7.4元,当卖到只剩5双是,已获利44元,着批鞋共有几双?要解题思路与答案 这就是爱 》 600字 这就是爱爱是肯包容一切;阳光告诉我,爱是照亮人内心的黑暗,驱走世间所有的寒冷;柔水告诉我,爱是滋润人干涸的心田……原来这就是爱.那爱还会是什么呢?走在街道上 以习惯为话题的作文的开头 购一批鞋,每双进价6.5元,售价7.4元,当卖到剩5双时,获利44元.这批鞋共有多少双? 请把椅子拿到教室去英文 仓库有双人凳和单人凳共140张,已知单人凳和双人凳的个数比5:2.现在要为120人准备凳子,至少要搬多少个 作文我爱我家:老照片的故事.可以写我和妈妈过去的往事吗?写一件过去的事\\.要不要写道理
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘