说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

HTML文档下载 WORD文档下载 PDF文档下载
OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目。这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。Steve Markey教授重点介绍了后者。

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。如何协同效用和实现部署,是本文希望解决的问题。

一些基础知识

第一是OpenStack 。作为目前最流行的开源云版本,它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示(不包含 Quantum 网络组件)。


图 1. OpenStack 的组件 

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看,这些服务可扩展到许多虚拟的和物理的服务器上。例如,大多数组织部署一个物理服务器作为控制器节点,部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上,对于 OpenStack 部署而言,这意味着对 Swift 存储环境使用单独的服务器。

第二是大数据 一般可以理解为三个数据源的数据汇集:传统数据(结构化数据)、感知数据(日志数据和元数据)和社交(社交媒体)数据。大数据通常采用新的技术模式进行存储,比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS):基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起,同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL),对于开源应用程序,通常会使用 SQL 的替代方案,如 Apache Pig for Hadoop。在商用方面,Cloudera 提供了最稳定、最全面的解决方案之一,而 Apache Hadoop 是最流行的开源 Hadoop 版本。

第三是Apache Hadoop 。包含多种组件,包括 Hadoop Distributed File System(即 HDFS,是一种可扩展的文件系统),HBase(数据库/数据存储)、Pig、Hadoop(分析方法)和 MapReduce(分布式排序和散列)。如图 2 所示,Hadoop 任务被分解为几个节点,而 MapReduce 任务则被分解为跟踪器 (tracker)。

            图 2. HDFS/MapReduce 层的组成部分 

图 3 显示了 MapReduce 如何执行任务,它将获取输入并执行一系列分组、排序和合并操作,然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境(如 IBM Cognos和 Satori proCube 在线分析处理)更复杂一些,但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?

方案1. Swift+Apache Hadoop  MapReduce

在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

方案2. Swift + Cloudera  Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。

大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。

方案3. Swift、Nova + Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。

图 5. OpenStack 架构

在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。

方案4. GFS、Nova、Pig 和 MapReduce

从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部署,企业应当首先在其中实现大数据技术,然后再实现私有云。

最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。(文/Steve Markey,编辑/郭雪梅)

关于作者:

Steve Markey 是一名顾问、副教授以及 Cloud Security Alliance (CSA) 的 Delaware Valley (Greater Philadelphia) 分会的现任主席。他拥有多个证书和学位,在技术领域拥有超过 11 年的工作经验。Steve 经常发表有关信息安全、信息隐私、云计算、项目管理、电子发现和信息治理的演讲。

参考资料:

  • 查看 OpenStack 的 Starter Guide,获得有关 OpenStack 架构的更多信息。

  • 查看 Michael Noll 的 博客文章,了解有关 HDFS/MapReduce 介绍的更多信息。

  • 查看 Ricky Ho 的 Hadoop MapReduce Architecture,获得有关 Hadoop MapReduce 的更多信息。

  • 查看 Christopher Olston 的 Yahoo! Hadoop Explanation,获得有关使用 OpenStack 和 Apache 的 Hadoop MapReduce 的更多信息。

  • 查看 Borthakur 和 Shoa 的 Hadoop and Hive Development at Facebook,获得有关 Apache Hadoop 部署的更多信息。 
  • 原文链接。
精简代码,为网站减负的十大建议 应用宝逆袭上位 将重构腾讯移动应用分发体系 eBay基础设施的成功经验,我们该如何复制? 自定义富媒体广告:NativeX SDK 5.0发布! WunderBar:零硬件开发基础也能接入物联网! 深入解析:分布式系统的事务处理经典问题及模型 从世纪互联、华云数据和金石易服的发展服路径观察IDC产业发展 SA:2014移动运营商、终端和应用十大关键趋势 使用modern.IE来设计更现代化的网页 全国顶级域名根服务器21日下午疑遭黑客攻击 影响巨大 苹果下一代iPhone的十大预测 《近匠》第07期,专访《恶魔塔防》团队,看俄国复杂深奥的游戏文化 代码托管网站GitHub的总裁和CEO进行职位互换 使用Chromebook的五个指南 云中游终极声明:热酷侵权,有种正面回答少打太极 背后故事:英特尔Edison中国研发 内部评审中曾三次被拒 全栈工程师会是未来的发展趋势吗? 大数据整理:囊括分片、存储方法、扩展等多个方面 物联网 ,下一个云计算市场 一位数据挖掘工程师眼中的“大数据与企业的数据化运营” 揭开“iOS in the Car”的神秘面纱 与Apple对峙:法律途径,并非是我想要 Halfbrick新作市场表现低迷:前作辉煌难续 专访豌豆荚:融资,会给技术团队带来哪些影响? 前端开发必备 40款优秀CSS代码编写工具推荐 新环境下的新体验是互联网硬件火热的根本原因 信息安全救星 ——变形代码产品ShapeShifter AWS启动大规模降价,引领行业降价潮流 Windows 8.1 Update 1最新版的截图再遭曝光 2013年软件领域因缺陷导致的五大事件 专访AMD技术高管 详解Kaveri技术性能及新开发特性 徐州的朋友进来,留下联系方式,交流交流。 jw领分 jw领分 jw领分 View 的使用会不会降低查询速度 索引超出了数组界限 为何自己用vb开发的ActiveX组件不能在asp页中运行 kvm & Redhat8.0, 移植问题??? 高手或有兴趣的朋友看一下,谢谢。(一) kvm & Redhat8.0, 移植问题??? 高手或有兴趣的朋友看一下,谢谢。(二) kvm & Redhat8.0, 移植问题??? 高手或有兴趣的朋友看一下,谢谢。(三) 有谁可以给我介绍一本比较好的介绍算法的书 她是我的初恋,半年前我们再次相遇,我对她说我一直爱她,她似乎也爱我,但现在她说她有男朋友了,不是很久,我想和她断绝联系,她又说会 如何防止多个程序实例同时运行? Interface not supported,Delphi作Com+服务时,有客户端报此错,紧急求助!! 难道《80X86汇编语言程序设计教程》保护模式部分的例子没人试过吗? Canvas.StretchDraw在WinMe有效,但在Win2000无效?!得如何解决? 本人急求《深度探索C++对象模型》一书完整E版 寻《深度探索C++对象模型》一书完整E版! 想从C++转到DELPHI,请前辈们指点一二 请问那里有.NET基类的详细介绍?提供者给分。 网页上的图片都是怎么切割的? 什么叫hr? 求教组网方案!有实践经验者请进 帮助看看用什么控件比较好。 OLE打开Excel文件的问题 关于c远程调用 这个病毒太狠了! 如何将IE打印功能去掉?禁止别人打印网页? 请教关于TImageList中存储多幅图片的问题 100分赠送 寻架构? 请教高手:如何在VB开发的程序中准确判断用户的可用内存? 用jb怎么在另一个类中控制frame中的一个label的text的实时的变化?多谢 如何制作PB应用程序的安装程序?高分求救。 WinXP里怎样备份norton antivirs的升级数据? 我只是给自己加点分啦 快救救我吧,我的存储过程返回值有问题?? 日文原码想在中文环境中运行可不可能 JBoss高手看过来! 下面的js执行错误,请看看 请教高手:如何当一个程序被反复调用时利用command$? 声明游标时可否用变量? 能不能提供几个漂亮的repeater控件的模版? dbs.Execute "SELECT * INTO 在校学生 FROM [Excel 8.0;DATABASE=" & App.Path & "\MyExcel.xls].[WorkSheet1] "报错,在线等待 有没有什么工具或办法可以将Tc 下的程序移植到linux下运行? 求助! 请教!急! 世间什么才是最珍贵的? 大家來說說2003年版<射雕>的敗筆. 请教:如何在VB开发的程序中判断一个程序在硬盘上的安装路径? 帮忙!谢谢! 主动运输一定要从低浓度到高浓度么 没有这样的条件是不是主动运输就不能进行了呢 逆耳忠言助我行 作文要作文 500字左右的 看好 是 助我行 君子:忠言而善道,不可则止, 物质跨膜运输中,发生主动运输的条件是? 关于逆耳忠言助我行的征文要600字 忠言顺耳利于行什么意思RT 为什么在无氧条件下也能进行主动运输 三端稳压器78L05都有哪些品牌品质比较好的,而且有SOT-89封装的? 于丹的”君子:忠言而善道, 这个为什么是主动运输 有机磷穿过细胞膜是被动运输还是主动运输?都需要什么条件? "逆耳忠言助我行"这样的作文怎么写?怎样开头 关于主动运输的问题某一细胞能通过细胞膜从环境中吸收M物质,进行实验得到以下结果:1、当细胞中M物质浓度高于溶液中M物质浓度时,也会发生M物质的吸收2、只有在氧气存在的条件下才会 9、甲、乙、丙三位学生用计算机联网学习数学,每天上课后独立完成6道自我检测题,甲答及格的概率为0 .8乙答及格的概率为0.6 ,丙及格的概率为0.7.三人各答一次,则三人中只有一人答及格的概 LDO(低压降)稳压器作用 主动运输需要什么呢 甲、乙、丙3位学生用计算机连网学习数学,每天上课后独立完成6道自我检测.甲答及格的概率是8/10,乙答及格的概率为6/10,丙答及格的概率为7/10,3人各答一次,则3人中只有1人答及格的概率为?最 全世界有多少物种? 关于主动运输我在整理笔记的时候发现了老师说过核糖体进入小肠上皮细胞是主动运输 可是核糖体能在小肠里出现么? 是不是只有易燃物质的爆炸反应才是放热反应,不易燃但可以燃的是不是放热反应?我说是不是易燃物质的爆炸反应是放热,不易燃物质爆炸就不是放热了 简述小脑对躯体运动的功能 继发性主动运输是协同运输吗? 化学方程式非燃烧的放热反应是什么 小脑和脊髓内有调节躯体运动等生命活动的低级中枢.哪儿错了?```肿么错的? 几何画法中三面投影里怎么判断两条直线是否垂直?只用V,H面 为什么深而慢的呼吸比浅而快呼吸效率高? √ 忠言虽逆耳,对朋友说真实的想法.好吗. 在画法几何中投影可分为 投影 投影 某研究小组在电脑上进行人工降雨... 朋友在你有困难的时候他就会出现,在你的身边,朋友说的话总是逆耳忠言是什么歌? 燃烧反应一定是放热反应吗?为什么? 谁有上进教育非常新课标高三单元创新卷 数学电子版答案 ruiruiread@126.com 我的好朋友经常因为一些小事情和同学吵架,我会用一、二句忠言劝劝他( ) 心率偏高有什么危害吗? 怎么样在电脑上进行进制换算 这张图从网上找来的不知道标的转录方向是不是对的?我答案上也是这样.T T百度↓百度上说转录方向是RNA聚合酶将去的方向,(也就是还没有mRNA形成的地 ).第一幅图不应该是往右吗? 含花草、数字的古诗都有哪些?急用 最低等的动物以下四种 鲫鱼 蛇 家鸽 狗 如何判断转录的方向怎么判断它的转录方向的?不是应该向右吗?我个人观点:mRNA右边有伸长突出的部分,不是说明向右转录了么? 动物生理为什么深而慢的呼吸气体交换效率高于浅而快的呼吸谢谢了,大神帮忙啊 忠言的例子 生物学中转录的产物是什么 形容轻视别人,对别人没有礼貌的词语或成语 忠言的话有哪些不要太长 转录方向如何判断, 形容极度轻视、瞧不起的样子的词语 爱情的忠言是什么? 《闻一多先生的说和做》作者选取了哪几个事例来表现学者闻一多先生?详略上是怎样处理的? 形容轻视小看的两个字词语 为什么深而慢的呼吸比浅而快呼吸效率高? 关于光合作用的问题…细胞的光合作用产生了能量可供细胞新陈代谢的各项活动所需.但是我不明白的是,能量,不就是ATP么?那它产生能量,使得ADP转化成ATP,那不就是能量产生了能量了吗?求解! 形容不值得回头去看一看,形容很轻视.写词语 青蛙,蛇,兔,丹顶鹤哪个是体温恒定,卵生,体内受精 寡人之于国也一句,其中"之"的意思是啥?请教达人给出分析. 谁知道形容轻视的诗词?请多写点, 逆耳忠言助我行600字作文 寡人之于国也中“之于”如何解释?要准确哦,如果解释是“对于”请说下为什么. 主动运输的实现需要哪些条件? 谁有逆耳忠言助我行的作文.急.700字谁有逆耳忠言助我行.的作文.急.700字 《寡人之于国也》词义解析请针对问题对字的意思逐一翻译,不要整句的或长篇大论,1、“以”字的意思A、以五十步笑百步B、树之以桑C、申之以孝悌之意2、“喻”请以战喻3、“而”A、弃甲 美国与沙特进入公开紧张状态 多重分歧伊朗处死16名反政府组织囚犯 回应边西班牙华商遭警察勒索殴打 寻求律师援奥巴马参观学校旁听课程 揶揄国会议员冯小刚:春晚我打算娱乐大众,每天想如冯小刚否认说过由着性子办春晚:我没傻央视马年春晚时长缩减至4小时 明星没安倍称担心中国加强军备 日本应领导亚安倍称担心中国加强军备 日本应领导亚伊朗处死16名反政府组织囚犯 回应边奥巴马参观学校旁听课程 揶揄国会议员义乌26日清晨发生爆炸凶杀案 已有一安倍称担心中国加强军备 日本应领导亚墨糖果厂爆炸现场搜救结束确认两人遇难浙江首次采用新评价体系对1300余所我军少将:中国发展军力绝不针对日本伊朗东南部武装冲突致17名边防人员死国航增加三条国际航线香港影片《狂舞派》纽约放映获好评官员强奸幼女案双方民事和解 受害人获卡梅伦成英国将不改变与美国的情报合作经济数据向好金价或再步入短期调整无标题停放校园多年僵尸车变垃圾车蔡辉:不应用经济学来跳大神数数“新区”的楼市故事岛城为离休干部换发特殊人员社保卡今年首批保障房源,下月公布韩军方推测朝鲜发射火箭炮或为报复韩国李光洁让大家准备好纸巾10万闲钱,买车还是开店?百年清源 围棋、信仰与国族之间雅安原书记徐孟加被双开 长期与有夫之张志军与陈菊会面后致词(全文)飞行员的“锻造”与“后期维护”◎行业动态 青岛装饰城重庆路店开业穿高跟鞋开公交,险!公交公司:乘客可大黄鸭来青岛了竞猜还在继续,快来参与青龙高速主体工程年底通车试运行城市信报图文版保监会:严禁开发销售博彩性质的保险产
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘