说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Ceph浅析(上):概况与设计思想

HTML文档下载 WORD文档下载 PDF文档下载
其命名和UCSC(Ceph 的诞生地)的吉祥物有关,这个吉祥物是 “Sammy”,一个香蕉色的蛞蝓,就是头足类中无壳的软体动物。这些有多触角的头足类动物,是对一个分布式文件系统高度并行的形象比喻。

【编者按】Ceph,当下已成为OpenStack上最通用的存储之一,也是是目前人气最高的开源存储项目之一。近日,拥有海量存储领域工作经验的华为@一棹凌烟基于现有资料文档的学习思考,以及由此而来的心得体会,对Ceph进行介绍与分析。文章内容大致涵盖Ceph的产生背景、设计思想、技术实现、主要特点、与OpenStack的联系、与Swift的比较等等。

以下为原文:

Ceph的概况

本文将对Ceph的基本情况进行概要介绍,以期读者能够在不涉及技术细节的情况下对Ceph建立一个初步印象。

1. 什么是Ceph?

Ceph的官方网站Ceph.com上用如下这句话简明扼要地定义了Ceph:

“Ceph is a unified, distributed storage system designed for excellent performance, reliability and scalability.”

也即,Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。应该说,这句话确实点出了Ceph的要义,可以作为理解Ceph系统设计思想和实现机制的基本出发点。在这个定义中,应当特别注意“存储系统”这个概念的两个修饰词,即“统一的”和“分布式的”。

具体而言,“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能,以便在满足不同应用需求的前提下简化部署和运维。而“分布式的”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。在实践当中,Ceph可以被部署于上千台服务器上。截至2013年3月初,Ceph在生产环境下部署的最大规模系统为Dreamhost公司的对象存储业务集群,其管理的物理存储容量为3PB。

2. 为什么要关注Ceph?

事实上,Ceph并不是一个刚刚出现的开源项目。与此相反,从最初发布到逐渐流行,Ceph走过了七年以上的漫长路程。笔者以为,之所以应当对Ceph加以了解,其原因大致有两个方面:

首先,Ceph本身确实具有较为突出的优势。

Ceph值得一提的优势颇多,包括统一存储能力、可扩展性、可靠性、性能、自动化的维护等等。本质上,Ceph的这些优势均来源于其先进的核心设计思想,笔者将其概括为八个字——“无需查表,算算就好”。基于这种设计思想,Ceph充分发挥存储设备自身的计算能力,同时消除了对系统单一中心节点的依赖,从而实现了真正的无中心结构。基于这一设计思想和结构,Ceph一方面实现了高度的可靠性和可扩展性,另一方面保证了客户端访问的相对低延迟和高聚合带宽。通过后续内容的介绍,读者可以看到,Ceph几乎所有优秀特性的实现,都与这个核心设计思想有关。

其次,Ceph目前在OpenStack社区中备受重视。

OpenStack是目前最为流行的开源云操作系统。而据笔者观察,Ceph之所以在近一两年间热度骤升,其最为有力的推动因素就是OpenStack社区的实际需求。目前而言,Ceph已经成为OpenStack社区中呼声最高的开源存储方案之一,其实际应用主要涉及块存储和对象存储,并且开始向文件系统领域扩展。这一部分的相关情况,在后续文章中也将进行介绍。

3. Ceph的产生与发展

通常而言,开源项目的来源有三:一是学校里的大牛作的课题,论文发够然后开源;二是企业里的大牛搞的产品,机缘巧合于是开源;三是某些大牛突然显灵,然后一票人跟着一起开源。每一类的例子都有不少,而不同起源的开源项目也有着自身的不同特点。具体而言,第一类项目的原理和技术上很可能颇有独到之处,而Ceph就正在此列。相比之下,第二类项目的设计实现很可能颇为成熟,并且在开源之前或者开源初期就获得生产环境下的实际部署应用机会。这种出身背景上的因素,对于一个开源项目的后续发展很有可能产生影响。

言归正传。Ceph项目起源于其创始人Sage Weil在加州大学Santa Cruz分校攻读博士期间的研究课题。项目的起始时间为2004年。在2006年的OSDI学术会议上,Sage发表了介绍Ceph的论文,并在该篇论文的末尾提供了Ceph项目的下载链接。由此,Ceph开始广为人知。

Ceph使用C++语言开发。对于一个典型的强调性能的系统项目,这一选择可以理解。

作为开源项目,Ceph遵循LGPL协议。

根据Inktank官方网站上的信息,Cpeh的生态系统参加下图:

Ceph ecosystem

不难看出,图中列出的厂商或组织带有明显的云计算气息。

随着Ceph的热度不断增加,Sage Weil于 2011年创立了Inktank公司以主导Ceph的开发和社区维护。目前,Ceph的发布周期为三个月。

4. Sage Weil其人其事

在展开后续的技术讨论之前,适度八卦Sage Weil的人生经历实在是很有必要,因为这位兄台委实是 IT男青年中凤毛麟角的在工程、研究、创业三个领域都有涉猎且都颇有建树的神人。

Sage在工程上的能力自然不必多言,而他发表Ceph论文的OSDI也是计算机操作系统领域首屈一指的最高水平学术会议。至于创业方面,Sage是 DreamHost的联合创始人,彼时是1997年,他刚上大学不久。。。有兴趣的同学可以去LinkedIn研究一下Sage的个人简历,基本上是想工作就工作,想上学就上学,想创业就创业,想读博就读博,随心所欲,天马行空,令人油然而生一种表示敬佩的冲动。

Ceph的设计思想

分析开源项目,时常遇到的一个问题就是资料不足。有时间写代码的大牛们通常是都是没有时间或者根本不屑于写文档的。而不多的文档通常又是使用手册之类的东西。即便偶尔有设计文档通常也是语焉不详。在这种情况下,想从代码里反向把设计思想提炼出来,毕竟不是人人都能做到的。

值得我们庆幸的是,Ceph是一个典型的起源于学术研究课题的开源项目。虽然学术研究生涯对于Sage而言只是其光辉事迹的短短一篇,但毕竟还是有几篇学术文献可供参考。这也为我们提供了难得的,从顶层视角入手分析一个系统领域的优秀开源项目的机会。本篇文章的内容也正是笔者阅读这些文献的心得体会。

1. Ceph针对的目标应用场景

理解Ceph的设计思想,首先还是要了解Sage设计Ceph时所针对的目标应用场景,换言之,“做这东西的目的是啥?”

事实上,Ceph最初针对的目标应用场景,就是大规模的、分布式的存储系统。所谓“大规模”和“分布式”,是指至少能够承载PB级别的数据,并且由成千上万的存储节点组成。

在大数据口号深入人心的今天,PB已经远远不是一个激动人心的系统设计目标了。但是,应该指出,Ceph项目起源于04年。那是一个商用处理器以单核为主流,常见硬盘容量只有几十GB的年代。这和现在动辄6核12线程还要双处理器、单块硬盘3TB已经司空见惯的情况是不可同日而语的。因此,理解这个设计目标,应该考虑当时的实际情况。当然,如前所述,Ceph的设计并没有理论上限,所以PB级别并不是实际应用的容量限制。

在Sage的思想中,对于这样一个大规模的存储系统,是不能以静态的眼光来看待的。对于其动态特性,笔者概括为如下三个“变化”:

  1. 存储系统规模的变化:这样大规模的存储系统,往往不是在建设的第一天就能预料到其最终的规模,甚至是根本就不存在最终规模这个概念的。只能是随着业务的不断开展,业务规模的不断扩大,让系统承载越来越大的数据容量。这也就意味系统的规模自然随之变化,越来越大。
  2. 存储系统中设备的变化:对于一个由成千上万个节点构成的系统,其节点的故障与替换必然是时常出现的情况。而系统一方面要足够可靠,不能使业务受到这种频繁出现的硬件及底层软件问题的影响,同时还应该尽可能智能化,降低相关维护操作的代价。
  3. 存储系统中数据的变化:对于一个大规模的,通常被应用于互联网应用中的存储系统,其中存储的数据的变化也很可能是高度频繁的。新的数据不断写入,已有数据被更新、移动乃至删除。这种场景需求也是设计时必须予以考虑的。

上述三个“变化”就是Ceph目标应用场景的关键特征。Ceph所具备的各种主要特性,也都是针对这些场景特征所提出的。

2. 针对目标应用场景所提出的预期技术特性

针对上述应用场景,Ceph在设计之初的几个技术特性是:

  1. 高可靠性。所谓“高可靠”,首先是针对存储在系统中的数据而言,也即,尽可能保证数据不会丢失。其次,也包括数据写入过程中的可靠性,也即,在用户将数据写入Ceph存储系统的过程中,不会因为意外情况的出现造成数据丢失。
  2. 高度自动化。具体包括了数据的自动replication,自动re-balancing,自动failure detection和自动failure recovery。总体而言,这些自动化特性一方面保证了系统的高度可靠,一方面也保障了在系统规模扩大之后,其运维难度仍能保持在一个相对较低的水平。
  3. 高可扩展性。这里的“可扩展”概念比较广义,既包括了系统规模和存储容量的可扩展,也包括了随着系统节点数增加的聚合数据访问带宽的线性扩展,还包括了基于功能丰富强大的底层API提供多种功能、支持多种应用的功能性可扩展。

3. 针对预期技术特性所提出的设计思路

针对3.2节中介绍的预期技术特性,Sage对于Ceph的设计思路基本上可以概括为以下两点:

  1. 充分发挥存储设备自身的计算能力。事实上,采用具有计算能力的设备(最简单的例子就是普通的服务器)作为存储系统的存储节点,这种思路即便在当时来看也并不新鲜。但是,Sage认为这些已有系统基本上都只是将这些节点作为功能简单的存储节点。而如果充分发挥节点上的计算能力,则可以实现前面提出的预期特性。这一点成为了Ceph系统设计的核心思想。
  2. 去除所有的中心点。一旦系统中出现中心点,则一方面引入单点故障点,另一方面也必然面临当系统规模扩大时的规模和性能瓶颈。除此之外,如果中心点出现在数据访问的关键路径上,事实上也比然导致数据访问的延迟增大。而这些显然都是Sage所设想的系统中不应该出现的问题。虽然在大多数系统的工程实践中,单点故障点和性能瓶颈的问题可以通过为中心点增加备份加以缓解,但Ceph系统最终采用创新的方法更为彻底地解决了这个问题。

4. 支撑设计思路实现的关键技术创新

无论多么新颖奇妙的设计思路,最终落地必定需要有技术实力的支撑。而这也正是Ceph最为闪亮的地方。

Ceph最为核心的技术创新就是前面所概括的八个字——“无需查表,算算就好”。一般而言,一个大规模分布式存储系统,必须要能够解决两个最基本的问题:

一是“我应该把数据写入到什么地方”。对于一个存储系统,当用户提交需要写入的数据时,系统必须迅速决策,为数据分配一个存储位置和空间。这个决策的速度影响到数据写入延迟,而更为重要的是,其决策的合理性也影响着数据分布的均匀性。这又会进一步影响存储单元寿命、数据存储可靠性、数据访问速度等后续问题。

二是“我之前把数据写到什么地方去了”。对于一个存储系统,高效准确的处理数据寻址问题也是基本能力之一。

针对上述两个问题,传统的分布式存储系统常用的解决方案是引入专用的服务器节点,在其中存储用于维护数据存储空间映射关系的数据结构。在用户写入/访问数据时,首先连接这一服务器进行查找操作,待决定/查到数据实际存储位置后,再连接对应节点进行后续操作。由此可见,传统的解决方案一方面容易导致单点故障和性能瓶颈,另一方面也容易导致更长的操作延迟。

针对这一问题,Ceph彻底放弃了基于查表的数据寻址方式,而改用基于计算的方式。简言之,任何一个Ceph存储系统的客户端程序,仅仅使用不定期更新的少量本地元数据,加以简单计算,就可以根据一个数据的ID决定其存储位置。对比之后可以看出,这种方式使得传统解决方案的问题一扫而空。Ceph的几乎所有优秀特性都是基于这种数据寻址方式实现的。

原文连接:

“Ceph浅析”系列之二——Ceph概况

“Ceph浅析”系列之三——Ceph的设计思想


以“ 云计算大数据 推动智慧中国 ”为主题的  第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上  报名 ! 

Google将于月底举行Google Glass开发者大赛 分享29个超赞的响应式Web设计 Facebook图谱搜索和谷歌搜索有何不同? Facebook向美国iPhone用户提供免费电话 VMware CTO Steve Herrod离职 加盟风险投资公司 维基百科基金会推出众包旅游项目Wikivoyage 最舒适程序员:工作外包给中国 自己却偷懒 Evernote正在与苹果联合开发硬件记忆工具,未来两年公司上市 Fusion-io发布ioScale 全闪存数据中心时代到来? Agent Dash游戏设计之美:如何用2D打造3D体验? 开源项目文档应规避的13处“硬伤” 李开复:Graph Search将可与谷歌搜索媲美 月成本3500美元 如何在AWS上实现BBVA信用卡低延时分析 外媒眼中的国内互联网巨头:服务器集群庞大但缺乏创新 Facebook主导通用主板+SoC ARM与Intel同台对抗 假如像招聘程序员那样租车…… CrowdStar:Windows Phone 8是开发者的下一片蓝海 腾讯云总经理陈磊透露流量变现计划 将比亚马逊AWS更专注 代码之美——Doom3源代码赏析 英特尔公布2012财年财报 Q4净利润同比下滑27% 谷歌CEO佩奇:创新重于竞争 关注非增量改进 再尝败绩 微软杀软AV-TEST反病毒认证失败 财富:2013最佳雇主 谷歌第一微软75苹果未入榜 移动应用注册表单必死! 数据:2012年的全球互联网知多少 访中粮我买陈伟伟:高并发大压力挑战架构师极限 左路Deep Learning+右路Knowledge Graph,谷歌引爆大数据 数据库排行榜:关系型居首,NoSQL整体人气最高 联通:要做PaaS,存储最低为TB 百度资深交互设计师谈微信4.5版本 TalkingData推出移动游戏数据分析平台 大虾们给点意见:这么编写W77E58的软件看门狗是否妥当? 请问怎么用MAPI控件发送HTML格式的邮件啊 小问题,好郁闷!! 父窗口弹出一个子窗口,如果在子窗口点击鼠标,消息是怎么在父子窗口之间折腾的呢? 如何在接受到两个消息后才执行一段代码呢? 怎么定义一个三维数组 那位大哥能告诉我75,000日圆值多少人民币啊???? 安装了DirectX 9b之后Media Player 9.0总是出问题。 局域网怎么装打印机? 为什么控制面板中的“添加删除程序”不能用了?在线等待,请各位帮忙。 请问高手如何设置绘图背景为黑色,并且哪种绘制模式不影响画图的画笔颜色 《程序员》的文章错字太多!!!!!!!!!!!! 关于指纹采集识别 高分求《j2EE服务器端高级编程》这本书的源码 MAKEWORD宏从哪里找到中文解释。 为何在重载CreateParams后指定Form的Height值小于某个值后就不会再小? 开发一个基于WEB的ASP仓库管理,用什么技术比较好。 怎样让弹出对话框居中显示 我用Server.Transfer来做两个页面之间传值,我怎么让页面成为新窗口打开呀,100分 高分请教XML高手 在InterDev中,我什么说我不能连接web server 请问 怎么响应一个按钮打开一个新页面,同时关闭旧页面 各位PM进来谈谈自己的经历和经验教训。 picturebox控件问题 jdbc的奇怪限制,不能reread row data UNIX支持中文否,请推荐UNIX好书 高分求助:怎样发布sapi.dll 我发现我变笨了!!或许我本来就很笨。但是问句实在的:IT会使人变笨吗? hal.dll文件丢失!winxp修复的问题!急! pb如何连接execl 用Windows2000Internet连接共享出现的问题,请各位大侠解决一下! 关于数据库字段大小问题 ★★如何给一个Dialog加背景图片?★★ MSDN Library 2003中文版3CD下载 我用access+adoquery+DBgrid,我在拖动改变dbgrid的列宽时,为何会报错? 关于软件汉化的问题。 请教:可以从硬盘上直接安装linux吗? C语言二级考什么题型 MYSQL是不是不能建视图啊?新手清多多指教 还是ASP与SQL联不上的问题,在线等待 请问:C:\Documents and Settings\user\Local Settings\Temporary Internet Files里的内容怎么删除 紧急求助!sqlserver服务启动不了 怎么知道当前这台UNIX的IP地址 getWidth怎么用呀??????????????? 我的是win2000 server ,怎么会老出现什么explorer.exe错误???? 申请免费空间 请大家谈makefile的写法 请大家帮忙 求助,Windows2003启动时提示 \windows\system32\config\system文件丢失或已损坏, 无法启动。 怎么样使程序调试结果在屏幕上停留时间长点 初学,请问Edit如何添加到Memo中? 被酒莫惊春睡重,“被”字读什么?bei?pi?出自纳兰性德的《浣溪沙》.如果知道读什么请告诉我,请附加原因,比如通什么什么的.并且我还很想问这词中的几个字,品析一下,“闭”“被”“消”“ 伤心的时候总是一个人听音乐是我习惯了吗 用英语怎么翻译 哥听的不是歌是寂寞翻译成英语 “其实孤独的人并不寂寞 因为还有眼泪陪着我”是什么歌? We do use other forms.这个do use 好别扭啊.解释一下? “今晚是否也会感到一点点寂寞”这句话是不是病句? instance,case,example,sample的区别如题 example的用法 怎么架设啊 hurry,英语小句在线一译hey,just think about that you were ever been an ant,an alien,a banana or a mockey.有错么,若有错,请帮忙指出和按原意纠正,若是这句话有更好的英语句式(同义句),请提供 高等数学(上)清考题目来大神做一下吧! 美智库报告称朝鲜为发射大型导弹扩建卫杨洁篪会见伊朗伊斯兰议会议长拉里贾尼6名少女统一着装离家出走 称无人理解滨江一学校体育馆“一馆两用” 学生市媒体称上海自贸区资本项目开放或实行“13岁儿子黑网吧内打游戏 母亲连找四安徽病重孕妇遭多家医院拒收 为省钱只美数千民众参加枕头大战 欲破吉尼斯世加油站职员遭抢劫 胸前手机挡子弹救其有研究称所有哺乳动物遵循21秒排尿定埃及武打冠军因支持前总统穆尔西 金牌“充电”受气?消委会指引你维权行贿局长6万元获得千万扶持金中行首发“离岸人民币指数”压根没有抽检 何来结果公布大树惨变工具架外地货车违规驶入城区 撞断树枝致堵车大雾锁城 楼房“消失”化妆品代购鱼目混珠朋友圈成主阵地金鹰基金总经理殷克胜:个人原因请辞DIY客家美食糯米香扑鼻马云62亿港元入主文化中国
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘