说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
最新版Chrome浏览器推出全新语音搜索功能 惠普第二财季净利润同比下滑32% PC和服务器销售不佳 讲师秀之11:网易汪源的成长故事 PPT集萃(三):六位国内技术大牛分享巨型平台的打造与应用 聚焦全球移动市场:创新以色列 科技巨头的倾慕之地 Android版Chrome 27浏览器正式上架 机器人——数据中心的新“网管” George Chu:在雅虎打造真正的工程师文化 2013,303+家中国云计算企业的“生态系统”之梦! 高访问量Web应用跨云端迁移的原因:权限和易用性 Web应用开发者福音 Chrome 28新增丰富通知中心功能 帷千兰旭:推广渠道鱼龙混杂,开发者请小心 关于IE 10 你应该知道的6件事 Spring Framework 4.0M1发布,支持JDK 8、Java EE 7 “渣打科营编程马拉松赛”正式启动 官网同时上线 Android应该支持OpenCL的十大理由 传谷歌考虑和Facebook竞购众包地图Waze 谷歌工程师再次公布Windows漏洞 并称微软很难合作 Glassdoor评前景最令员工乐观的十大科技公司 华为上榜 下一代Android深度前瞻 第18级API功能揭秘 Web开发者不容错过的20段CSS代码 8大核心要点:我们能用HTML5 Canvas做什么? 移动周报:直接拿来用!最火的Android开源项目 前MySQL CEO:云将重新定义开发者的每一件事 CIO必知六件事,至少必须想到的! PPT集萃(四):来自五位中外专家分享的虚拟化和云存储实践 Jolla和Sailfish OS,那些你应该知道的事儿 不仅保值还能升值:过时的苹果电脑创下67.1万美元售价 三十天完成跨平台办公套件Joeffice的开发 jQuery 1.10.0和2.0.1同时发布 软件初创公司招投的九个必备技巧 奇怪的问题,程序已经关掉了,怎么程序的图标还在任务拦上? 现在有两张图,一张是正色图,一张反色图,在正色图中按一个区域后(相当于按钮)后,那个区域的图由反色相同区域的来显示,或者是把那个 取命令行参数的问题 问两个有点难度的问题:怎样声明及使用API 和 ActiveX DLL? 跳到上海来了,想交程序员朋友,搞delphi ,java,软件工程的都可以 令人很烦的小问题 谁能告诉我下面程序代码在内存中被编译器实际做出来的结果是什么? DataGrid問題:在分頁情況下,怎樣進行增加、保存、刪除記錄(急交貨,請大家多多關照!) 关于串口操作! 如何重构事件驱动程序中的case语句? 小弟公司想做一个邮件系统!!!(要求能首发邮件)小弟没有做过!!请各位给一些提示!! 高分求救:如何在一个企业的自己的网站上设置搜索引擎,用来搜索本行业的信息,需要什么条件? 求助 关于LONG VARCHAR 或 数据库insert 操作 问两个有点难度的问题:怎样声明及使用API 和 ActiveX DLL? 向大虾请教一个很菜的问题! 用代理如何把一句话加到域中 假脱机是什么技术? 谁熟悉COGNOS的前台展现吗,可不可以教教我拉,有没有中文的文档可以借我看看拉! msgbox的权限? 数据库 vfp->sql server? 谁能告诉我下面程序代码在内存中被编译器实际做出来的结果是什么? 很急:关于msgget的调用 vb 连接数据库 是不是SQLserver2000不支持些SQL 请问如何用程序控制使FORM最大化,最小化? 如何在datatable中再查找符合条件的数据? 为什么打印宽度最大为21厘米? 请问我在一个.js文件中怎样调用其它.js文件中的资源 这样做到不刷新,获取application的变化? 请教状态栏的问题 vfp问题?急~(关于控件的使用) 破解bios开机密码 如何自己编写代码结束所有的应用程序呢?请教! 请问如何在C#中对字符串或byte[]进行crc32校验。有现成的调用吗? 菜鸟的一个有关数据库的疑问?有谁知道吗? 神啊,救救我吧! 神啊,救救我吧! 神啊,救救我吧! 菜鸟提问,如何知道MDB数据库中是否存在一个指定表,谢谢!急…… 关于用DBGRID向数据库添加主细表的问题?高分奖赏! 关于窗体菜单的问题? 很急!!!!!!!! 欢迎大家推荐好的学习JSP的网站! 数据库 vfp->sql server? 问一个最好的查漏方法 ARM Develop Suite eval version的破解方法或者破解文件 一个word文件,怎么让用户一打开它时 出现保存对话框? ie6.0的快捷键问题 这里人气旺,借贵宝地一用。熟悉网站搜索引擎的朋友请进! 交换机和路由器有什么区别?? csdn怎么回事啊!!昨天登陆后竟然显示别人的用户名,今天竟然连我的注册信息也改了.TMD 五年级上册第18课描写母亲外貌和语言的语句人教版 情趣的近义词 慈祥的反义词现在就要 DonnaSunnyLauraKarenJillShirleyAdreaSharonTammySueTrista或者帮忙取一个,带上发音和含义,能带有“雪”字更好啦,(不要复制的一大篇一大篇的.) 东周列国志读后感如何写不用写文章,写提纲就可以了!快 求一篇励志感人的小小说 要在同学面前演讲可以酌情提高悬赏 我周一要用 慈祥的反义词和近义词 求一篇《东周列国志》的读后感得快! 求青春励志500字左右小小说,要完整的能看懂的! 《读书让我们成长》 《东周列国志》500字读后感水平一般般,初中水平自己想的 "我与重庆同成长"的征文该怎么写? 美好 的反义词和近义词要准确,急用! 《威尼斯的小艇》第3段第一句话在这段中的做用是什么,他与后面句子的关系是什么? 重庆市创模征文怎么写?求现文 以读书为话题初中作文现在就要,自己写的最好 威尼斯的小艇的第四自然段是从哪三方面把总起句写具体的? 《我与城市同成长》征文怎么写(重庆市29中的) 慈祥的近义词 谨慎、赞赏的反义词 英语短语翻译: 上交【我的作业】——? 与.相处融洽——? 忍受.的痛苦——? 公众——? 把..收起来——?关于某事与某人意见不一样——?做演讲——?暑期作业——?在第一周——?本月中旬— 作文如何选材 读书的幸福结尾 王琳在晚上由路灯a走向路灯b ,当他行到p处时发现,他在路灯b下的影子为2米,恰好位于路灯a的正王琳在晚上由路灯a走向路灯b ,当他行到p处时发现,他在路灯b下的影子为2米,恰好位于路灯a的正 我想收集一些关于友谊的文章和经典句子再来点多多益善, 以“一句话,一辈子”写一篇作文谁无聊能写篇给我,是写影响一辈子的什么话之类的.500字左右,不要好的,要一般的,没有亮点那那种,好的不需要,我写不出,我是用来应付老师的,一看就知道,要 晚上小亮走在大街上,他发现,当他站在大街两边的两盏路灯之间时,自己被两边路灯照在地上的影子成一条直线,自己右边的影长为3米,左边的影长为1.5米,又知他的身高为1.8米,两盏灯的高度相 谁有关于友谊的优美句子或短文?英语也可以 求关于雷锋精神的作文400字 作文:我发现了()的奥秘500字 有关友情的句子、诗句、作文、歌词都要好朋友要过生日了.我准备写些东西给她.越多越好!谢谢! 求我眼中的雷锋精神小学作文400字 威尼斯的小艇的重点句及含义. 《威尼斯的小艇》第一自然段是围绕哪句话写的 小学语文一年级上册的古诗有哪些 求一些描写月亮的诗句 模仿威尼斯的小艇第四自然段写一段话急两日内完成 写亲人的作文600字有动作神态心理等描写,还有好词好句不要是网上复制的,自己写 扩句:威尼斯的小艇,怎么扩? 【威尼斯的小艇】是谁写的 求一篇“一句话的力量”作文 字数800-900.谢 写月亮的诗句 初中语文课本目录中的*是什么意思 5篇 300~500字 理解威尼斯的小艇4个句子hhh 以“日记、散文、小小说、诗歌、剧本、议论文、说明文”的文体尽量分别写一篇作文采纳的有30分悬赏 求一篇 一句话的力量 作文,自己写的 什么句子像 威尼斯的小艇 一样,有三个比喻 你会写以《我身边的礼仪故事》为题的作文吗求大神帮助同题 作文;雷锋精神伴我成长快,火速! 用词语来描述初中 小小说美文欣赏快,要短的 《渴望得到》初中作文 急需英语交际日常短语!(急用)我在这给你们跪下了,只要你们能给我英语交际日常短语.(求你们了,越快越好.)带中文。 作文我的故事的题材谁有? 我渴望得到你的欣赏.600字左右,除了诗歌,文体不限. 交谈、回我的家的英语短语. 以《我的初一年》为题的作文求大神帮助以《我的初一年》为题的作文 要求500字就行 我渴望—— 但是交谈起来很困难,这句话用英语怎么说? 慈祥的近义词,反义词 因为有了期盼 尽量给我一个好答案.
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘