说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Project Savanna:让Hadoop运行在OpenStack之上

HTML文档下载 WORD文档下载 PDF文档下载
Hadoop基本上已成为MapReduce实现的产业标准,并为众多机构采用;Savanna则是让用户可以在OpenStack上运行和管理Hadoop集群,而用户做的仅是给Savanna提供一些相关的配置参数。

Apache Hadoop基本上已经成为MapReduce实现的产业标准,并且被各个机构广泛采用,而Savanna项目旨在让用户可以在OpenStack上运行和管理Hadoop集群。值得一提的是,Amazon通过EMR(Elastic MapReduce)提供Hadoop服务已达数年之久。

用户需要给Savanna提供一些信息来建立集群,比如Hadoop版本、集群拓扑、节点硬件详情以及一些其它的信息。在用户提供这些参数之后,Savanna将帮助用户在几分钟之内建立起集群,同样还可以帮助用户根据需求对集群进行扩展(增加或者删除工作节点)。

方案针对以下几种用例:

  • 为Dev和QA快速配置Hadoop集群
  • 利用通用OpenStack IaaS云中从未使用过的计算能力
  • 为专用或突发性的分析负载提供“分析即服务”(类似AWS中的EMR)。

主要特性如下:

  • 作为OpenStack组件出现
  • 通过REST API进行管理,用户界面作为OpenStack Dashboard的一部分。
  • 支持多种Hadoop分布:

  • 作为Hadoop安装引擎的可插拔系统。
  • 集成了提供商特定的管理工具,比如Apache Ambari或者Cloudera Managent Console。

  • Hadoop配置的预定义模板来,具备配置参数功能。

Savanna REST API和定制Horizon视频链接: YouTube视频

细节说明

Savanna产品主要于以下几个OpenStack组件进行通信:

  • Horizon——提供GUI以使用所有Savanna的特性。
  • Keystone——认证用户并提供安全令牌,用以与OpenStack通信,用以给用户分配特定的OpenStack权限。
  • Nova——为Hadoop集群配置虚拟机。
  • Glance——用于储存Hadoop虚拟机镜像,每个镜像都包含了已安装的OS和Hadoop;预安装的Hadoop应该给予我们在节点布置上的便利。
  • Swift——可以作为需要进行Hadoop作业的预存储。


常规工作流

Savanna会根据用例给用户提供两种不同抽象等级的API和UI:集群配置和分析作为服务。

集群快速配置的工作流程包括以下选项:

  • 选择Hadoop版本
  • 选择包含或者不包含预安装Hadoop的基础镜像

  • 对于未预安装Hadoop的基础镜像,Savanna将提供整合了供应商工具的可插拔部署引擎。

  • 定义集群配置,包括集群的大小和拓扑,并且设置不同的Hadoop参数(比如heap大小)。

  • 将提供可配置的模板用以简易参数配置机制。

  • 集群的配置:Savanna将提供虚拟机,安装和配置Hadoop。
  • 集群上的操作:添加和移除节点。
  • 在不需要时终止集群。

对于分析即服务的工作流程包括以下选项:

  • 选择一个预定义版本
  • 配置作业:
  • 选择作业的类型:pig、hive、jar-file等等
  • 提供作业脚本源或者是jar路径
  • 选择输入和输出数据路径(最初只支持Swift)
  • 为日志选择路径

  • 设置集群大小限制
  • 执行作业:

  • 所有集群配置和作业执行都会清楚的呈现给用户
  • 作业结束后会自动移除集群

  • 取回计算结果(比如从Swift)

用户方面

在使用Savanna配置集群时,用户在两种类型实体上进行操作:Node Template和Cluster。

Node Template用于描述集群中的节点,包含了几个参数。节点类型就属于Node Template的属性之一,这将决定Hadoop将在节点上运行什么样的处理,确定节点在集群中的扮演的角色,它可以是Job Tracker、NameNode、TaskTracker、DataNode或者这些节点的逻辑组合。Node Template同样还保存了硬件参数,这些参数用于节点虚拟机以及Hadoop在节点上的工作内容。

Cluster实体用于描述Hadoop Cluster,描述了预装Hadoop虚拟机特征,用于集群的部署和集群拓扑。拓扑是节点模板和每个模板该部署节点数量的列表。关于拓扑,Savanna会验证集群中的NameNode和JobTracker是否唯一。

每个节点模板和集群都归属于用户给其分配的tenant,用户只能访问已接入tenant里面的对象。用户只能编辑或删除他们建立的对象,当然管理员用户可以访问所有的对象,Savanna需要遵守同样的OpenStack访问策略。

Savanna提供了多种Hadoop集群拓扑,Job Tracker和NameNode进程可以选择在一或两个独立的虚拟机上运行。同样集群可以包含多种类型的工作节点,工作节点可以同时充当TaskTracker和DataNode,同样也可以扮演一个角色。Savanna允许用户任意选项的组合去建立集群。

与Swift整合

在OpenStack中,Swift作为标准对象存储,类似Amazon S3。通常部署在实体主机上,Swift被作为“OpenStack上的HDFS”,具备很多使用的增强功能。

首先为Swift实现的文件系统: HADOOP-8545,这样的话Hadoop作业就可以运行在Swift上。在Swift方面,我们必须将请求更改为 Change I6b1ba25b。它将端点映射为Object、Account或者是Container列表,这样就可以将Swift与依赖数据位置信息的软件整合,从而达到避免网络开销。

可插拔部署和监控

监视功能来自供应商定制的Hadoop管理工具,Savanna整合了类似Nagios及Zabbix可插拔外部监视系统。

部署和监控工具都将被安装在独立的虚拟机上,从而允许单一的实例同时管理或监控不同的集群。 

原文链接: Savanna (编译/仲浩 审校/王旭东)

“ 第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名! 

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “ 

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加! 

VMware推出vCloud Suite及vSphere新版:可用性及性能双丰收 TIOBE 2013年10月编程语言排行榜:Groovy首次挤进Top 20 Cookie时代将结束:微软将开发跨PC、移动和Xbox跟踪技术 Web设计里需要避免的八大糟糕趋势 Groupon从ROR迁移至Node.js,响应速度大幅提升 腾讯云的Container实现 专为物联网打造的数据库TempoDB获得320万美元投资 MongoDB成为首位10亿美元初创,功臣可归功于Oracle? 程序员遇到Bug后的30种常见反应 扎克伯格豪掷3000万美元购四套房 梅耶尔和拉里佩奇也居于此 IBM研究人员:仅200条微博 就可构建人格剖析图 MDCC重磅讲师:Pebble CEO Eric Migicovsky 历届中国大数据技术大会PPT精粹(一) 通讯也“跨界”:几行代码,API+SDK,用PaaS实现移动互联 MIT风景线:丝绸雕塑、VR代码、机器人、智能按钮及保时捷 深度学习新算法,完成字里行间的情绪识别 如何在开发项目里和难缠的程序员合作? 移动周报:七大无需编程的DIY开发工具 手把手教学,用jQuery Mobile创建Web App 别惊讶,Android绿色机器人标志灵感来自于卫生间标识 Google TV更名为Android TV 智能电视的路不好走 CTO如何避免决策失控(四)——通盘考虑 做到技术业务不分家 重塑世界!历届MDCC重磅嘉宾演讲大回顾 从贝佐斯的14句言论看商业成功之道 5大宠物可穿戴式设备 Google CIO Ben Fried谈内部工具文化 【开源专访】Fourinone创始人彭渊:打造多合一的分布式并行计算框架 API优先架构或者胖瘦服务器之争 Windows Phone 8迎来Update3更新:支持更大屏幕 更多磁贴 AMD院士站台 异构计算与OpenCL编程师资培训首站清华开讲 Twitter、Square开创者Jack Dorsey的奇趣人生 请问把长整型转换成字符串的函数是什么? c++文件操作小问题 怎样从datagrid中取出一行这个对象(online) 请问vs.net中的解决方案和项目以什么尺度来划分 求教mshflexgrid解除绑定后仍显示原记录的方法!请各位大侠指教! 在Windows2000中怎样设置默认打印机? 调用webservice,出现(http401失败:Access Denied)怎么办? 如何利用xsl转换xml文件为html,并将xml文件的内容嵌入到生成的html的数据岛中(xml数据是动态生成的) 请问vs.net中的解决方案和项目以什么尺度来划分 (转)请辞书 一个继承的问题... 声音嘶哑低沉,无论谁听了,都会觉得很不舒服,可是随着这语声走上楼来的,却是个风华绝代的女人 sql语句的问题 我想把本地的数据库导到远端的服务器上,该怎么做? ?!我怎么看不了帖子内容啊?!点开每一贴都出现同样的页面如下,各位是怎样? 我只能看见标题:( cad开次开发 安装win2000 ad server时的两个问题 再问如何备份远程数据库到本地文件? 请问在redhat8.0中有英汉词典的软件包吗?! 有关JavaMail取得的正文和标题是乱码的问题? 注册表的问题,有什么方法*****(送100分) 请问黑龙江中程成绩怎么查呀? 请问.net能在linux等操作系统上运行吗? 一个简单的问题? 请问哪里有delphi第三方控件开发和使用的书籍下载啊? 请问.net能在linux等操作系统上运行吗? 请问awt和swing有什么本质的不同呢?! 有点难度的sql 90分!看看这段JSP程序为什么出错。谢了! 模式窗体的postback 求教:在在模式对话框BOOL CXXX::OnInitDialog()中InitSocket()初始化失败,怎样退出该模式对话框 关于JTable,如何设置一行的颜色。 一个很简单的问题 读取远程的页面文件内容,但需要搜索结果的页面,请问如何实现??? 写了一个telnet服务器端程序,不能用exit退出,请大家帮忙看看~~谢谢! ?!我怎么看不了帖子内容啊?!点开每一贴都出现同样的页面如下,各位是怎样? 我只能看见标题:( 图片文件上载页,在上载页中实现预览的问题?急! 我的Asp为什么不能执行? 请教xml问题。 如何动态获得表单中checkbox中的name的值还有获得其值。 如何在UNIX下配置 Tomcat4.0 + Apache1.3 + JDK1.3? 在线等待! 请问版主:为何我在本版搜索“多语言”,找到的结果中没一个打得开? 如何在一个菜单项里控制另一个菜单项的状态(如变灰) 菜鸟问题 关于几个按钮布局?急 求救:关于在程序中运行其他程序的问题! 请问哪有Report Machine的下载? 请问只知道备份文件如何恢复数据库? To:qxjavajava: 哪里可以找到scjd的题目大家先做一下? 高程水平压线通过后的一点总结 请帮初学者看看这段简单的代码!感激t0 '_bstr_t' : missing storage-class or type specifiers 张根硕出演漂亮男人:网友称漂亮男人女没脖子神兽爆红网络 网友PS “缩台湾票选百大性感美女 郭雪芙与众女神朴智星将与美女主播女友结婚:金敏智曾郭美美童年照曝光被指整容前后完全不是香港TVB23岁女星被富二代醉奸并拍奇闻:越南男人爱戴绿帽子没脖子神兽ps图走红:爆笑没脖子神兽黄晓明穿内增高鞋来杭宣传《精忠岳飞》港相亲节目男嘉宾卷入强奸案:涉夜店性TVB邀港姐拍宣传片 尺度过于诱惑少周迅童颜现身摄影展 与章子怡齐敬“小迪拜最高住宅楼电梯故障 富豪爬97楼黄晓明扮大猩猩搞怪十足 张嘉倪为其擦罕见内地明星合照曝光 蔡明一身红潮范汪小菲疑给大S施压“造人” 称明年想大牌明星卸妆比“真相”杨丽萍《孔雀》见面会 白色长甲似白骨向华强太太晒75克拉巨钻 女星钻戒大毛阿敏富豪丈夫疑曝光:操盘多家公司 撒贝宁亲妹妹首度曝光:形似小撒 从事里尔交响乐团明晚亮相大剧院“饥”字发微护士减负“三部曲” 助力医患正能量高级军事顾问汽车尾气等污染对预防过敏无益1 8月申城商品房销售面积同比降两成健康跑名额一票难求首家冠军鹿毛衫精品折扣店亮相四楼有句话问杜甫老人服装特卖1折,快抢!上海景汇佳苑彩生活业主再中大奖“互跪”现身 是非隐退走进明治工厂 开启“安全美味”发现之“晓游杯”三打一开锣课堂内外邂逅传统文化金贵的冬虫夏草您吃对了吗?中国代表团上午升旗伦敦公寓Kingwood Garde比试职业技能人类的第1颗种植牙存活了42年保亿风景水岸“底价拍卖”搅局楼市
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘