说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
为移动而设计之信息架构篇 难逃厄运:Zynga将关闭Draw Something母公司OMGPOP 直接拿来用!最火的iOS开源项目(一) 是时候抛弃Eclipse转向IntelliJ了 Arrow:轻量级的Python时间日期库 编程语言API,你最青睐哪一款? 推动新输入方式发展:英特尔为感知计算设1亿美元基金 AWS到底有多大?目前看来有158000台服务器 C语言实现树的动态查找 第五届中国云计算大会于北京隆重举行 改变企业移动化:新Google地图API支持用户定制 诺基亚旗舰手机EOS真机图曝光 配备“巨型”摄像头 走进豆瓣:豆瓣的技术架构与团队文化分享 加速Web开发的10款HTML5工具 微软式微?AMD、英特尔等开始疏远Windows 语音技术现状:四千万突破语音产业的技术壁垒? 万维网联盟W3C推荐Web性能API 微软郑子颖:Windows Azure如何支持开源系统和软件? EMC 叶成辉:软件定义数据中心实现统一、开放的管理 百度云主任架构师 侯震宇:云终端开启数字生活 中国工程院院士 倪光南:中国云计算在全世界份额远超3% 信息图:未来的企业移动培训应用与技术 “2013年度中国优秀开源项目征集”活动最后三天 为什么开发者倾向于使用杂乱无章的免费工具 EMC合作伙伴销售经理杜术清:实现云的三种途径 开发者想走向海外:你融入老外的圈子了吗? 前微软工程师:美国监控和直接访问服务器?这不太可能 代码、TDD速查表 如何选择前端架构:服务器端HTML vs. JS部件 vs.单页Web应用 世界上最高深的Android特洛伊病毒 招聘iOS开发,老板必问的5个问题 请问vb中浏览器控件是在哪个文件中,另外我想在vb程序中加入介绍性网页,应该怎么办! 存储类 在MainFrame里怎么得到一个指向MyDoc类的指针? 上海的弟兄前来领分!!!! 能ping通代理服务器,但不能上网(ftp等都不能用)。有那些原因! 谁有api做的串口通讯例子 很简单的Temporary used 问题,就是搞不清,请哪位详细点拨一下,铭谢 DataGrid中使用HyerLinkColumn,请怎样动态传递多个参数或改变DataNavigateUrlFormatString的值(在线等待答复) 在winsock1.1下怎样监听网络事件。(请给个API 的 sample ) 高分急求数据库解决方案! 高分求助软件稳定性问题! 高分请教exej4的问题!~ 我的代码可以被编译吗? 十万火急(在线等)关于发邮件问题!多谢了(最后50分了) 感谢各位的鼎力支持!!! 急:如何让sqlload使用命令行方式,把数据库中的指定几个表导出?(在线) 单元全局变量与工程全局变量有什么区别 问一个关于JSP和XML结合的问题. 请问怎样用ASP连接Mysql数据库,急! 有没有j2ee的qq群??? win2k里的smtp服务器,怎么是需要身份验证的? 怎样让智能ABC记住输入的词组呢? 你在delphi中,用到了多少面向对象的知识? Dragover事件什么情况下触发 北京还是深圳 如何实现两个类互相访问--急! <Code Complete>怎么翻译好呢? 急!!!!!在dcom中向数据源添加数据报错,为什么? 有哪些方法可以在ASP.NET设计文件.aspx(html格式WEB)与脚本文件.aspx.cs(.aspx.vb)中传递数,或者说传递变量的值!!! 我用CDONTS.NewMail发邮件,怎么判断邮件发送成功或者是不成功呢? asp.net的客户端键盘的事件处理的有关问题? 请问怎么在程序里随机产生CLSID代码?$$$$$$$$$$$$$$$$ 急! 如何定义一个全局的类的实例,请高手指招? 到底怎么创建桌面快捷方式? 给点参考吧! ADO连接带密码的数据库时出现的错误!!! (在线求助),哪位老大知道怎样写一个字符串在一个iframe内框架里? zzxxdd过来接分? 刚才没说清楚再问一下救急 allforly(白衣胜血) 请进,其他人解答也可以。 windows 2003 关于fso问题,求救! 请问通过表单上传文件是否有大小限制? 关于函数的返回类型 JavaScript在使用showModalDialog的问题,急!!!!!! 急!datagrid中的Checkbox问题? 各位仁兄:在Redhet8下为什莫打开中文pdf文档是乱码?下弟在此先谢过了。 请提供北京招聘信息(java方面)。毕业三年了,一直在一个公司里面工作,昨天辞职了,现正是开始重新找工作。 win2k服务器问题,请大家帮忙解决! asp生成excel文件的问题!! 出一个程序员需要做的智力题,也来让大家头痛一下。 可以上qq,不可打开网页,这是为什么?主机为server2000,其他电脑有的可一打开 大()大() 那两个字要是近义词的哦 哲理小故事,最好是名人的,或者是讽刺的 心肌细胞为什么细胞内为负电荷外面为正电荷 觉得、认为的近义词是什么?必须是两个字的 一个三位数 百位数比十位数大一,个位数比十位数小2 设十位数为X 这个三位数是? 神经细胞的独特结构与物理中的尖端放电有无关系,就是电荷都集中在尖端一侧,有利于传导的速度加快 财会类的英文词典哪个好最好说清 出版社 主编 还有英文名字 有一个两位数、个位数比十位数大一、十位数与个位数之和为5 can not t_____ it home 我想买本中日英会计词典,不知道哪里有卖我需要买本中日英会计词典,就是会计专用语的词典.找了好久都找不到. 个位数比十位数大一的两位数 已知M(3,-2),N(-5,-1)且MP向量=1/2MN向量,则点P的坐标为?A(-4,1/2) B(-1,-3/2)在这两个选项中存在争议, 求春节英语小报的内容,用英语说春节能干什么,最好有翻译,帮小妹一把! 千亿后面的位数是什么 一个善良,执着, 以关于春节的小报题目. 一个8位数比一个7位数肯定大一 向量a=(m,n),b=(p,q),且m+n=5,p+q=3,则|a+b|的最小值是什么?请把步骤写出来 着急 春节小报帮忙做一下急语文的 “走出哲理的误区”的素材 太执着的人 会怎样 谁能详细的描述 其中的含义. 谢谢你. 热源质名词解释 kiss是形容词还是动词 he moom isn't the biggest among the stars ,is it的biggest是什么意思啊,比较级有这样的吗,还是其他的呢 栓质化名词解释 千亿后面是什么 如何理解资本主义所有制的实质是资本家占有雇佣工人的使用价值?来自任汝芬序列二 细菌属于什么类?是动物还是其他类? 编程中有许多的词语,谁能告诉我有那些词语? 你知道哪些像王家新这样执着追求信念的人? 细菌属于那类 圆锥的底面半径3㎝,母线AB的长为9㎝,动点P从B点出发,沿着圆锥的侧面移动一圈,然后回到B点,P点移动的最短距要准确步骤,谢谢 资本主义国家雇佣劳动力就算是剥削劳动力,而我国为什么不算呢两者有何区别?资本主义的生产资料私有和我国的生产资料公有,体在人民群众上有什么不同.\x0c亲,不要复制粘贴好吗?说说自己 考研数学概率题例题1.26,答案为什么不选择B呢? 从右边起第几个数是千亿 历史说资本家剥削了剩於劳动力,那我老板也算是不是资本家呢? 占工作,摇出《易经》第二十七卦 颐 山雷颐 艮上震下,农历4月25(已巳月甲子日)摇出山雷颐六三,六四,九六三个爻动,测工作.农历4月19(已巳月戊午日)摇出山地剥六一,六四,两个爻动,测工 例题, 比千亿更大的数读作什么? 迅猛的近义词有? 材料一说明了什么问题 圆锥的底面半径3㎝,母线AB的长为9㎝,动点P从B点出发,沿着圆锥的侧面移动一圈,然后回到B点,P点移动的最短距 张村计划植树2000棵,用25天完成.实际每天比计划多植10棵实际用了多少天? 历史材料一说明了什么问题 创造一个有关"路"的富有哲理的句子 张村今年计划植树3500棵,已经植了2975棵,要超额完成计划的20分之3,还要植多少棵? 广州亚运会作文400就行!急! 在农业生产上,常需要用质量分数为16%的氯化钠溶液来选种.现要配置100g这种溶液,试计算需要固体氯化钠和水的质量各是多少懒人们要记得写解题过程 请问这个字是什么,有这个字么…… 广州亚运的新景象 作文 求问一道Haskell题目,是一道英文题目,我害怕翻译不到位,还是把原题po上来了:Give the type and definition for a funtion called 'matches' that take an element and a list where the element is of the same type as the elements in 集合A={k平方-k,2k}k得取值范围 台湾省,什么时候能够统一 It was ( ) during the winter in China this year snowy heavily snow heavily heavy snowy snow heavy 汉子经过了7种演变过程,汉子字形的总变化是(),汉字不断趋于(). 台湾什么时候能统一 请使用递归的形式,写出一个名为 ’sumAcc‘ 的函数,它用一个累积的参数来使一个list的整数加起来求和.原题是:Write a function called 'sumAcc' in recursive style that uses an accumulating parameter to sum a list o 两个字互为近义词 台湾什么时候能统一啊 鸿壑是不是词语 克里中东之行访埃及 停留数小时修复两男子患病“变形”却不“金刚” 被迫宅永嘉一家六口当老鸨栽了非洲多国出现罕见混合型日食克里访开罗寻求修复美埃关系长兴3万株古银杏披“金”衣与青山翠竹浙江富阳万市镇“银杏之秋”开游式在杭常山举行处置村级组织换届群体性突发事湖南三姐弟上学途中遇害 学校:校车司周四“立冬” 接下来雾霾可能会是杭州中央第二轮10巡视组全部进驻 重点纠地方政府放权缓慢遭质疑 官员:有些权男童假装落水致救人者瘫痪 愧疚28年孙杨年初已无证驾驶 负责人称依法处理丁俊晖国锦赛夺冠比肩亨德利 20年来科比魔兽关系如何? 贾米森爆料:他俩香港保安局局长:马尼拉人质事件处理步圈内人曝刘翔赴美实为退役准备 商业利武林CBD将启动推进11大项目 新增孙杨承认无证驾驶 致歉希望给其改正错宁波东钱湖畔800年古塔惊现盗洞 发广西农民画师创作浮雕作品 记录壮家人10.28最新消息:明天必涨!涨!涨晚间汇总:明日望冲击涨停股如何看待网络心理咨询?王汁 (Uma Wang) 2016呼图壁县教科系统1900名干部师生参奇台县新建水资源自动化监测系统正常运若羌县洛浦村村民口袋里的维汉双语老师若羌县铁干里克镇召开环境卫生整治万人阿克陶县“考评问责”整治干部不良作为托里县禁毒宣传进校园据说潮流运动现在都这样玩?甜甜蜜蜜的蛋糕到底是什么样?关爱家人和看家护院的好帮手,青果摄像wuli晓明都拿第八座影帝了,梁朝伟轻松一下,《戏说高考》笑喷了~面对新7系的进击,奥迪A8自然也不是为拓展印度市场 国内手机厂商没少给印李彦宏:做让世界不一样的事情 比纯粹连竞争对手都投 王思聪的野心不只一个他们生无可恋地自愿被锁进棺材……
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘