说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
VB如何在VB中实现绘图区的大十字光标 VB如何在VB中制作不回显的文本框 VB如何制作浮动式窗口 闪烁的Label-VB资料 设定StatusBar的文字成不同的颜色-VB资料 设计一个可中断循环的按钮-VB资料 设置“执行无用户界面”-VB资料 生成一个透明窗体 -VB资料 实现窗体内部的左右移动 -VB资料 实现鼠标移到窗口上时变大,移出窗体时变小(如《东方快车》)-VB资料 实现图片平铺于窗体中-VB资料 使程序的标题条闪烁 -VB资料 使窗口总在最前 -VB资料 使窗体右上角的X按钮失效 -VB资料 VB使用 WIN95 的选择目录对话框 使指定窗口总处于其他窗口之上 -VB资料 通用对话框专辑(全) -VB资料 透明的Form上显示背景透通图 -VB资料 图像在图片框中的滚动 -VB资料 拖动无标题窗口-VB资料 拖动无系统标准标题栏的窗口-VB资料 文本框中光标位置的获得-VB资料 无关联程序时开启“打开方式”窗口 -VB资料 显示 Combo 的下拉条 -VB资料 显示Windows系统的标准ABOUT窗口-VB资料 显示程序的版本 -VB资料 显示窗口的水平和垂直滚动条-VB资料 一劳永逸让VB自动改变控件大小 移动没有标题栏的窗口 -VB资料 隐藏Win95任务栏 -VB资料 VB用API函数打开 MS CommonDialog对话框 各位大虾赶快救命呀!!万分火急 请问如何在VC中自定义消息 这个问题也许我不该问!幼稚了点吧?! 关于鼠标HOOK的行为方式 如何将一个二叉树保存在文件中,并且能从文件中再恢复到内存 关于电子邮件发送的程序 我以前都是VFP的,不知道怎么在ODBC中链接一个.DBF文件?请告诉我,谢谢 ftp问题求教 高分求教,为什么我的ASP.net 不能调试 如何来实现? 紧急求助:如何将字符串中的数字和字母转化为全角字符? 我该怎么设置我的VPN??? 高分求B/S办公自动化项目设计文档!请版主不要删除!! 能装配数据库,但打不开数据库,错误:ORA-01115: ??? 1 ?????? IO ?? (? # 31796) CWnd的create函数中有一个UINT nID参数,请问该参数干什么用的,用同一个id可以吗? 那里有免费的E-mail服务器下载?十万火急 DBCombo数据绑定控件下拉列表的宽度 较特殊的 API 使用问题 菜鸟问题:如何把一张表的数据添加到另一张表中(结构完全相同)? 升级的sdk下,CFileDialog关闭时出错 控件许可问题 各位,你们有没有遇到过这样的情况 明天我生日,怕大家不在,先贴出来,祝福我吧! 在做程序的时候需要从客户端不停的刷新服务器端的数据 ,是用xmlhttp还是web service? 如何将.DBF在ODBC中链接,有很多选项,是VFP(table)还是其它的?请各位赐教 周末散分!!! 哪位高手帮帮忙,求客户端计数器程序 高分!有关Delphi界面的问题!如何实现象QQ那样的动画移动效果 c#,xml高手请进,小弟有一个非常紧急的问题,请指点。 lotus notes怎样连接多台服务器? 数据存放的问题 adodc+datagrid数据更新后,grid怎样及时更新? 请教 请问JDBC 中classes12.jar、classes12_g.jar、classes12dms.jar这三者有什么区别? 给小弟一个启示 寻电子商务领域合作-购买源码或合作开发 水晶报表显示时如何让它不出现toolTip提示信息? 开发Struts程序遇上的问题 如何启动Tomcat?? 在access中怎样给一个日期型的字段附空值???(在线等待) 快毕业了,我的烦恼?!!! 如何保存页面,一项一项粘贴他妈的太烦了! 在IE下执行servlet时为什么有些servlet可以正常运行,有些却提示下载文件? 如何把两个关联的DataTable 合并成一个DataTable 或者DataView 象数据库中的视图 在asp调用access数据库时出现错误( 在线等待) InstallShield Developer 7.0 East Language Pack 的问题!!! *****寻求好的Global.asa(在线等待)******* 大家快过来看看这个小程序!送分!来者有分! 学完操作系统的,将来能作什么工作呢? Insert一幅图片到Oracle数据库及从数据库中取出这幅图片的方法及代码(1) 如何将文本框设置成只读的,帮帮忙了!在线等待! 请问这个句型是THERE IS 还是 THERE ARE,为什么?有下面这样一个句子LUCY WITH HER FRIENDS ____ FROM AMERICA.请问这个空里应该填IS 还是 ARE 为什么? 高二物理第18页47题一只“220V100W”的灯泡正常工作时的电阻为484 Ω ,则这只灯泡断电时的电阻()(请说出具体解题过程,)A 等于484 Ω B小于484 Ω C大于484 Ω D无法确定 what is the number of your car?你的汽车牌号是多少?这种用法叫什么?句型结构希望解析清楚 有没有其他翻译 英文写作假如你是张程,你的美国朋友Cindy 来信询问你的周末生活,按以下要点给他回信.1、你一般如何度过周末?2、你对你的周末生活是否满意?3、你希望自己今后的周末生活能有哪些变化?注 请问17和18题怎么做谢谢 There is no doubt和it is no doubtThere is no doubt 和 it is no doubt 的区别什么时候用there 什么时候用it那_______is no doubt__that____he can enter a good company.为什么第一格用There而不用it呢? 洛阳哪里有英语写作强化班? 在英语中常见的不定代词有哪些在英语中不定代词有哪些 it's no doubt 和there is no doubt 的区别 英语翻译随信附上我们公司的商业-发票.请您仔细核对我方信件内容 和贵方内容.货物号,商品名称 规格 数量 价格 和总金额 目的地 装运期限 付款方式 和保险 以免发生意外 如果有问题请打X (粤教版)七年级上地理复习提纲 what`s the number of your tilephone?为什么加of和the It is adj.for sb.to do sth.句子成分 苏教版思想品德七年级上复习提纲不要地址,要正文,越详细越好,最好再来点题目做做.苏教版! phone,what's,of,number,your,the怎样连词成句 I miss you 的中文的意思是什么? 英语十二个不定代词是什么 请问forget to do sth与forget doing sth 的用法和区别 it only looks like this because it's badass.悍马的一句广告语 l still miss you 汉语怎么,或者说是谐音 forget to do something和forget doing something区别用法 英语中,不定代词有哪些 Miss a 的over u中文谐音翻译 forget to to do sth.与 forget doing sth.怎么用?我知道:forget to do sth.是说:是还未做过的,后者是:已经做过的但我还没弄懂这个定义的意思,请帮我解释清楚要是有例句就好了 < Only then you > 、may let me not leave like this not abandoned.是什么 意思知道的说话 鲁人版七年级上册思想品德复习提纲复习题下附答案 字母上面划横线怎么划 How me do you want?How I only then let you like? What’s your car number?用 car 还是 car'swhat's your ___ number?是用car还是car's forget doing sth与 forget to do sth 用法的区别 英语造句(九年级)(1)做...是我们的责任(2)把...看成...用英语造句! 英语中的不定代词指什么,都有那些 下列名词有没有复数形式?有的请在横线上写出来,没有请在横线上划“/”.monkey_______ class______ water______ shelf_____ rice______ nurse______peach_______ library____ dog______ milk______ dress_____ postman______tooth_______ 一、用been to ,been in 和gone to填空.Where is Jane?----She has ( )the shops.She'll be back soon.Have you ever ( )America?Yes,I ( )New York several tmes.We have ( )the class since Septemer.The Wangs have ( )Qingdao for years now.They like it the 在英语中,什么是不定代词.不定代词的意思,不定代词如何运用,在什么语境下使用,通常放在什么词的前面,什么词的后面 forget doing sth怎么用 1:not...at all2:get along with3:let down4:have a lot of experience(in)doing sth what's in your.是英语高手的进 VFP基础 划横线的答案 初一英语造句填空 There ...is on it的汉语意思是什么 persuade sb to do sth和persuade sb into doing sth 有什么区别 英语两人情景对话 多于10句 少于15句 拜谢~ is that it there 对话环境大概是 有一份文件在桌子上 把它转化成陈述句怎么说, 是不是介词后面人称代词要宾格?所有格是不是也是?主格不行吗? 有关安慰朋友的英语情景对话.两人至少十句 there is 和 it is 有区别吗 除了意思上的!要细说举例! 1、用人+pay+钱+for sth .用这个短语,造句.2、It takes +sb+时/钱+to do sth.也用这个短语,造句. 简单英语3人情景对话,每人10句 每人最多不要超过15句,每人最低不能低于10句.题材随意,不过简单点最好 SO how is it going there?的意思是什么? try to persuade sb to do sth和persuade sb to do sth区别 用there is.there are句型介绍自己的卧室不少于五句话 There's _____person in this whole world like you.A no B only one 选B why? 追求流行事物有什么利弊?八年级上册粤教版思想品德追求流行事物有什么利弊?八年级上册粤教版思想品德 谁能用“There is/There are”句型描述一下一个学校? 高二物理,17 18题,求过程,谢谢, 英语中常用的动词征集 窗帘这个单词curtain用There be句型表述是用there is 还是there are 高二物理题(高考18题)18.如图,半径为R的圆是一圆柱形匀强磁场区域的横截面(纸面),磁感应强度大小为B,方向垂直于纸面向外,一电荷量为q(q>0).质量为m的例子沿平行于之境ab的方向摄 请帮我收集英语动词过去式和原式(小学的)急!
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘