说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
谷歌工程师再次公布Windows漏洞 并称微软很难合作 Glassdoor评前景最令员工乐观的十大科技公司 华为上榜 下一代Android深度前瞻 第18级API功能揭秘 Web开发者不容错过的20段CSS代码 8大核心要点:我们能用HTML5 Canvas做什么? 移动周报:直接拿来用!最火的Android开源项目 前MySQL CEO:云将重新定义开发者的每一件事 CIO必知六件事,至少必须想到的! PPT集萃(四):来自五位中外专家分享的虚拟化和云存储实践 Jolla和Sailfish OS,那些你应该知道的事儿 不仅保值还能升值:过时的苹果电脑创下67.1万美元售价 三十天完成跨平台办公套件Joeffice的开发 jQuery 1.10.0和2.0.1同时发布 软件初创公司招投的九个必备技巧 BYOD浪潮即将来袭 六大年轻杀手重塑企业软件 灵活运用AppFlood:提高APP eCPM的10个技巧 事半功倍:你应该知道的HTML5五大特性 创建API监视器的五大技巧 流量激增15倍+ 乐蜂网桃花节大促背后的技术事 Windows 8和IE 10:如何保障视频播放? 云计算大会讲师秀之13:梁家恩,12年积累,构建永久免费的语音云平台 众望所归:智能手机芯片将为服务器所用 没有学位,他通过以下四步进入Google 谈谈Google Polymer以及Web UI框架的未来 保密入髓:前苹果员工揭示公司是如此善于保守秘密 调查显示:软件开发公司出现“人才荒” 三星拟6月20日在伦敦召开新品发布会 推手机新品Galaxy和ATIV 历届中国云计算大会PPT集萃(五):数据安全隐患解析与应对 搞趣网创始人:做不了阳春白雪 就做下里巴人 CMDN Club 28期:创业公司一定不要浪费资源 浅谈Lean UX:我们到底该怎么设计? 如何在delphi中显示和编辑sql server中超过256字节的字段 《程序员》的合定本有卖了吗? 最近我防问了一个黑客网站。一下中啦。桌面没有图标我看完啦。有没有高人帮我一下啊。 现有一个dll转为静态库的问题 请问怎样添加一个从CObject继承而来的新类啊? 如何在VB中用Outlook发电子邮件??? 妈呀,上午54,下午33,有戏吗?我完了。 请教:通过VB+ADO访问SQL Server 7数据不能更新记录? 低分低级问题 简单问题,送分喽!!文件调用问题!!! 如何定义IOCTL代码: 谁能推荐一本有关网络与通信的入门书? 看官们注意HttpURLConnection!!! 如何获得Edit控件中当前输入的是第几个字符? 大家是如何调试WDM程序的 在游标中如何更新数据表的当前行 哪里有内幕新闻看? 怎么突然不能解析了,不只是什么原因,昨天我的asp.net都配好了,今天.aspx怎么又不能解释了? 好奇怪!为何不执行Page_Load()函数? 简单问题:关于一个控件,50个大洋。 广州的科友听过没有?听说是搞网络安全的,挺牛B的。全是C,unix高手。。。 如何使用vbs,javas,修改注册表??? 睡不着觉的快来数绵羊啊——什么?你要数星星呀?那也行啊;-p 我只使用了一个MScomctLib里面的listview,我不想把整个dll包进去,怎么办?。。。 谁知道Microsoft的CAB文件用什么工具可以解开? 我对ADO访问MDB比较菜. 这是我的做的练习请大家帮我看一看 有关针对特定人的邮件用特殊格式显示的可行性探讨 SQL SERVER中的怪问题 几年下来,我们一直用着英文版的VC,不知道VS.NET中有没有中文版的VC? 还没有睡觉的兄弟过来帮我看看这段代码,为什么有错?? ADO最新版哪儿有下载啊? 捆饶很久的问题!!! 急,明天就要交程序了,请问怎么才能知道产生的异常的名称,并拦截? 上午56、下午68,散分先 jsp站点的web服务器需要什么都??怎么设置??那里有说明文档没有啊 怎样在窗口没有显示出来之前将数个小位图“拼成”一个大位图并可以保存,急! win2000的怪问题 快救救我!!!!!!!!!!!!!!! 一个关于c++builder的ado的问题! PACK6是不是有问题? MFC程序的结构问题? 一个酷似chinaasp的社区,需要你的支持。嘿……实在做得很好,送分!!!随便给朋友做做广告 7:30之前一定要交。。。。急。。。。!!!! 文件改名用哪个函数啊? 为什么我的windows2000pro共享文件不能访问????? 在VB.Net中的TabControl有一个OwnerDraw的功能,但不知到如何才能将上面的Item画成有曲线的 一个程序员的路是怎样开始的?我该选择VB还是C语言? 那里有动态加载控件的文章??? 哪位高手告知学习C++/VC++的步骤和各阶段应看的书。 湖北的有查到分数的没有,怎么查,我天天晚上做恶梦,救救我! 能否请高手指教关于开在开机时屏蔽热键的问题(del+alt+ctrl)?高分送上! 专家 我想用废豆油做生物柴油,还有其中的水洗也不知道是怎么回事.我用废豆油做生物柴油,初定先酸催化后碱催化,先除水,不同比例浓硫酸 甲醇 油脂反映,得上层生物柴油和下层,在用下层的 上海世博作文字数不限 “水是万物的本原”属于唯物还是唯心? 怎么使洗衣粉造成的生物柴油乳化还原?急,求方法!因为新进一批生物柴油,所以用洗衣粉清洗了,蓄油池,生物油注入24小时后产生乳化现象,原来是清澈透明如水的油变成了乳白色,后来知道,洗 与石化柴油相比,生物柴油有哪些优点 三相异步电动机拖动额定恒转矩负载运行,若电源电压下降20%,达到稳态时电动机的电磁转矩如何变化A.Tem=0.2TNB.Tem=0.64TNC.Tem=0.8TND.Tem =TN感觉应该不变啊 ,题中不是说恒转矩吗,求真相 洗涤沉淀的方法有哪些? 与石化柴油相比生物柴油有哪些优点 三相异步电动机的电磁转矩与电源电压大小有何关系?若电源电压下降20%,电机的最大转矩和启动转矩将变多大? 几种清洗方法中,错误的是A.用洗涤剂清洗餐具上的油污 B.用酒精洗涤残留碘的试管 C.用肥皂洗涤久置石灰水的试剂瓶 D.用汽油清洗沾在手上的油漆 请把每个选项逐一分析. 细水常流是什么意思? 一台三相异步电动机拖动额定转矩负载运行时,若电源电压下降10%,这时电动机的电磁转矩怎么算?1)Tem=TN;(2) Tem=0.81 TN;(3) Tem=0.9TN; 过程 求过程 我要知道为什么 生物航油的原料是什么?是生物柴油吗?生产工艺及过程都是怎样的? 《细水常流》是什么意思? 花看半开,酒饮微醺 全文是什么?希望带有赏析 盐生植物能够为生产生物柴油提供原料吗?生物柴油的原料成本高是发展生物柴油的瓶颈,挖掘开发廉价的原料是关键,盐生植物能不能解决这个问题? 钢铁制造工艺流程分多少步骤 上海世博园中国馆现在还开放吗?如果开放的话,门票是多少钱?我准备1月末左右去上海,另外其他国家的展馆还开放吗?如果开放,门票多少钱? 请问羧甲基纤维素钠怎样溶解? 低碳生活与低碳世博发表看法和观点,帮个忙, 什么叫做细水常流式的爱情看过“执子之手与子偕老”那篇文章吗?要是没看过上我博客看看吧!有什么感觉?说说:什么叫做细水常流呢?有什么感想否? 羧甲基纤维素钠如何溶解 关于酒的诗句并归纳一下诗人往往借酒抒发什么情感?请至少举三例, 上海世博园中国馆的设计理念是什么?几个词语的顺序 羧甲基纤维素钠溶解后为什么会变黑我把羧甲基纤维素钠溶解水后 放几天就变黑了 怎么使羧甲基纤维素钠溶解水后 李白写酒的诗表达了诗人怎样的情感快,求你了求求求求求你你你你你您了了了了了了了了了 "细水常流"英文怎样说 今天是5月31日?那么明天是几月几日? 有关酒的诗句和诗人抒发了什么情感 不伦之恋,不伦之恋,细水常流是什么意思为什么不回答我的问题 近期的洪水发生在几月几日? 有关酒的诗句 诗人借酒抒发了怎样的感情 生活中常用的调味剂、防腐剂是什么? 生物柴油设备可以同时用地沟油和植物作为原料吗?同一套设备应该不能用两种原料吧,但是不是只需要调整其中几个步骤呢?调整难度有多大,成本大概是多少?谢谢! 食盐为什么可以做防腐剂 生活中常用的食物调味剂有什么 魔芋和卡拉胶混合起什么作用的 翻译成英文:“形成美国与其他国家不同关键是在于道德观念的差异和行为方式的差异” 生活中常用的调味剂防腐剂化学式? 食用菌的保鲜? 我们都知道,美国是个移民国家,翻译为英文 生活中常见的既是调味品又是防腐剂的物质是什么? 白魔芋胶和花魔芋胶有什么不同?怎样知道买到的魔芋胶是白魔芋胶还是花魔芋胶? 山梨酸钾是不是防腐剂?有没有危害? 生物柴油的成本与售价最近经常看到关于生物柴油的报道,我对此比较感兴趣,想知道一下现在每吨生物柴油的成本及售价,希望不吝赐教! 卡拉胶的用途 山梨酸钾是防腐剂吗?市场上的熟食和罐头都添加了防腐剂吗?它和那些食品添加剂都是对人体有害的吗, 生物柴油价格大概多少?哪里有卖? 有关于酒的诗句和表达的感情酒”在古代诗词中很常见,如“浊酒一杯家万里”“酒酣胸胆尚开张”“醉里挑灯看剑”等.请你再找出一些与“酒”有关的诗句,把它们摘抄下来,诗人往往借“酒 三相异步电动机电压变化时引起的电流、转矩、转速的变化主要对转差率上升导致电流增大不理解,增大的结果为何又导致电磁转矩重新上升,不太理解 #生物柴油#最近几年生物柴油产量?11-13年 世博与低碳生活在上海世博会中,有哪些场馆与低碳联系密切的,或者有哪些措施体现了低碳生活? 上海世博 作文450字的 英语翻译在2010年上海世博会期间中国馆给来自不同国家的参观者留下深刻的印象,在中国馆里他们对中国的情况了解的更多.把这句翻译成英语,要有定语从句的 世博低碳作文(小学) 上海世博瑞士馆作文 2010上海世博会歌曲有哪些? (作文开头)如何把“上海世博”扯到“ 低碳生活”?写关于低碳生活的作文,开头时怎么和上海世博联系起来?也就是开头怎么写? 求上海世博作文本小女初中毕业、马上要上高中、暑假打完工跟团去了世博会、现求一篇游览作文、详细描写中要有巴西馆和加拿大馆(加拿大是我以后想去的国家)、去过挪威馆、瑞典馆 感情为什么不可以只唯心?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn