说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

将OpenStack私有云部署到Hadoop MapReduce环境

HTML文档下载 WORD文档下载 PDF文档下载
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性和单一租赁的特性。本文将帮助您了解云计算和大数据技术以及如何将OpenStack 私有云部署到Hadoop MapReduce环境。

私有云简介

私有云 指企业内部的云计算部署,在私有云中,企业利用了数据中心内的各种云计算技术的细微差别。这些差别包括快速弹性、资源池、按需配给和自动化管理。为了在内部将这些属性整合在一起,大多数企业采用了开源的云版本,比如 OpenStack 或 CloudStack。

OpenStack 是最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图1提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

大数据简介

Oracle 将 大数据 定义为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

Apache Hadoop 的应用比较常见,因为您可以使用多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。


图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。


图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM® Cognos® 和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。下一小节将介绍企业如何将私有云和大数据技术结合在一起。

Swift、Apache Hadoop 和 MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群,从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明您应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

Swift 和 Cloudera 的 Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

Swift、Nova 和 Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。


图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。

结束语

云计算和大数据正步入我们的生活,因此我们的企业需要确定这些技术如何使公司受益,比如 CapEx 方面的成本节省或增强的处理功能。您的企业应当分别对这些系统进行测试,然后以迭代的方式将它们整合到企业中。这样,企业就可以实现出色的投资回报,为未来发展做好准备。

作者简介

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

原文链接: 将OpenStack 私有云部署到Hadoop MapReduce 环境         

AWS全球创业大赛 奖金100000美元 YY:破冰而出,成功上市 Xtreme Labs工程师:Android开发常陷入的五大深坑 Elon Musk:没了乔布斯的苹果干不过谷歌 旁门左道:第一次开发移动游戏就赚到28623美元 移动周报:小聪明赚大钱 游戏SEO如何耍鸡贼? 创翼全国 六城联动——2012移动互联网应用创新大赛开放日 全国六城联动沙龙 爱丽丝+福尔摩斯 Game Insight解谜游戏玩出新花样 Windows Phone 8 SDK大升级:部分功能兼容WP7 信息大图《愤怒的小鸟》发家史 Intel预测:10年之后你的手机是48核的 消息推送惹怒用户:应用开发者请别太过分 创新工场:我们如何孵化未来? iOS越狱比例下降:国内移动开发环境怎么了? 响应式图像技术与资源分享 看Twitter如何应对大选:少些Ruby 多些Java 软件开发中常见的十大系统瓶颈 [CTO俱乐部87期]三人行架构分享:开源是背后的支柱 推荐5款超实用的.NET性能分析工具 OpenStack基金会主席Alan Clark访华 欢迎提问 程序员的十大烦恼 兼顾性能和兼容体验:HTML5时代的浏览器全面测试 Lisp的本质 Amazon工作环境恶劣员工高流失率 为何却依然能持续成功和创新? 对几个软件开发传统观点的质疑和反驳 [实战分析] 编写高效的JavaScript程序 Twitter的系统编程 百度高通达成合作 为Android终端提供云服务 EasyHadoop技术沙龙在北京、广州两地齐发 CloudStack技术沙龙:committer李学辉及中航信分享 思科为什么愿意花12亿美元收购云计算网络初创公司Meraki? 急,如何在Page_Load中检测是否从ImageButton或者HttpInputImage中传来的PostBack Crystal Report 报表的相关问题。急………… 400分求助:可供BCB调用的VC DLL应该怎么写? sql中,in(1,2)的1,2整体是什么类型?好像不是varchar型.多谢 关于PostMessage 求急:如何完整的移植Oracle8i数据库到另一台服务器?(在线等待) WScript.Shell需要安装吗? 高分求解:如何实现透明button 问一个菜鸟问题 问:windows form下的用户登录程序如何写? 自己做了个浏览器,请教大家怎么保存打开的网页? 这个程序要如何做!!! 中国从来就没有和“四大发明”沾上边 combo值的问题 我的程序界面元素很少, 我还需要学MFC吗? ERWIN如何连接到Oracle9i上 串口通信控件MSCOMM的安装,而不能使用?????? 在程序中如何得到连接网络的带宽和实际的传输速度? 在ActiveX中添加自定义事件,急!!!! 快被他气疯了!快来帮我一下! 不能启动sqlagent.exe,出现“找不到Ordinal”的提示?? 一个排列组合的问题,有点难度!!! 在程序中如何得到连接网络的带宽和实际的传输速度? 为什么程序员跳槽频繁? 不知是不是将记录锁住了 关于Win32编程时的位图问题 想找一個單論壇的asp論壇 不知道還能不能找到 字符串乱码&gt 和 &lt 我想在Shape控件中增加一个右键和一个双击功能,应该什么实现啊?? 菜鸟问问题:SQL的简单问题,在线等 那为神仙,做过画电路图的画图软件?里面的电路分析是怎么做的?帮忙指点一下 这个要如何安装呀Microsoft SQL Server 2000 Desktop Engine 小问题,能不能停止响应当前进程去进行别的工作?需要语句! 到小公司求职应该注意什么问题? gethostbyaddr()怎麼用的啊?我這樣用怎麼不行啊? 向大家请教一个简单的问题,见笑了 难题难题,怎么在j2me里面实现在一个java程序里面启动另外一个java程序? 请教oracle的jdbc驱动程序的类路径如何设置? 显示器不停的开关,进不了图形界面了,急。 打开水晶报表时显示“未将对象引用设置到对象的实例”,只有10分,全部送出 矩形坐标 【那个活活的,玩不玩了?】 怎么判断dbgrid中某个单元格的值是否符合要求 急,在线等,英文作业等着交,就剩160分了全给了!(只能放100分,气死我了) 请问大虾:在那里可下载installshield Professional 7及其东方语言包 怎么样把exe的C#项目文件转换成dll的呀?? 今天Broland来我们公司查盗版软件了,散糞 一个女孩问"你帅吗?" , 你想如何说? 向大家请教一个简单的问题,见笑了 卖书! 请高手来看这里的错误!! 龙与地下城 DnD 第二版规则和第四版不同点有第二版TSR的龙与地下城可以直接玩第四版规则的吗? 已知两个角两边分别平行且一个角55度则另一个角 那种句子优美 修辞好的 为什么氯化钙能抢救链霉素过量引起的中毒? 黄河哺育了华夏文明这句话怎么改为反问句和双重否定句 低声细语的细是什么意思 将一个直角梯形分为4个大小、形状都相同的图形,怎样分? 低声细语的低指的是什么? 做第九题 1.The __ are on the floor2.__ are you going this afternoonI'm going to the___3.We're going to the _____________4.This is Sarah's __________It's beautiful —____ are the drums on the floor?— Sorry,I don’t know.\x09A.Where B.What C.What about D.How much 天文学家发现酷似太阳系行星系美政府高官因奥巴马医改核心举措漏洞频国有银行副处长杀妻判死刑 被曝与多名村主任骗千万拆迁款获刑14年 称不了中国疾控中心专家:H7N9禽流感疫情纽约油价29日下跌美政府高官因奥巴马医改核心举措漏洞频中储粮:转基因油未污染国储库 国储菜美政府高官因奥巴马医改核心举措漏洞频英国将发行伊斯兰债券 吸引中东投资者孟加拉国大罢工第三天造成至少4人死亡交通恢复 回填基本完成新机场“断头路” 明年打通继续在韩志愿军遗骸迁葬工作谢贤:明年就将“80后”能源业不差钱 年终奖2.4万全市中小学 周六放寒假输液未做皮试 医院赔6万“双培计划” 本市拟推行体操教头 客串海选评委大腕加大片 热闹一整年“中国梦”唱响清华大学盖世天变破碎战旗鸣鸿大陆双剑之遗计齐天大王书录恩仇怨鬼小转世学生大唐潜规则异界之变身为兽山神当自强贝壳堤旅游海岛金山寺旅游碧霞湖生态观光园旅游云曼温泉旅游云龙桥旅游连城四堡旅游熊岳天沐温泉度假村旅游永安溪漂流旅游神仙居旅游后沟古村落旅游香港理工大学旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘