说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

浅谈互联网数据中心海量运营之道

HTML文档下载 WORD文档下载 PDF文档下载
随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?

【编者按】互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,承载的业务也呈现海量增长模式。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?除了建立完善的运营体系,其思路和方法同样很重要。本文节选自腾讯大讲堂,文中详细阐述了如何做好自动化运营、计划性运营、做好精细化运营、预防性维护和应急演练以及做好外包管理、和人员培养的解决之道。


随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。以腾讯为例,其拥有即时通信活跃账户8.08亿个,最高同时在线1.8亿个;微信/WeChat合并月活跃帐户数达到3.55亿个;QQ空间月活跃帐户数达到6.25亿个;每日发送通信消息超过180亿条;每日上传图片3.60亿张。


面对如此海量的用户和业务,我们的数据中心运营又未尝不是海量的,如下数据应该能够有所说明:

  • MonthlyDeliver server 10,000+;
  • Monthlyreboot request 4,000+;
  • Monthlymigration request 2,000+;
  • MonthlyOS re-installation 2,000+;
  • MonthlyHardware replacement 500+;
  • MonthlyHard-drive replacement 800+;

面对如此海量的设备和需求,我们应该采取什么样的方式,才能保障数据中心的安全、高效、稳定的运营呢?其实,这样的问题一直以来都存在,需要考虑的点、线、面也很多,每个运营管理者都会有很多的想法和措施。对于互联网公司而言,面对海量数据的挑战,一定要建立完善的运营管理体系。但今天,我们不谈体系,而是关于如何做好互联网数据中心海量运营的思路和方法,就个人的体会,做一些散谈。(当然,如有不妥之处还请包涵。)

个人认为,在满足业务高速发展时,大规模数据中心的海量运营过程中必然存在诸多的问题和挑战,那是否我们需要针对所有的问题和挑战,都制定详细的解决方案去快速应对呢?我想大家的回答应该都是否定的。确实,我们要想快速有效的提高海量运营的水平,一定要找准制约我们做好海量运营保障的主要矛盾,排出优先级,有针对性的把关键的几个点先解决好。个人目前所关注的做好数据中心海量运营的五大道法是:做好计划性运营、做好自动化运营、做好外包管理和人员培养、做好预防性维护和应急演练、做好精细化运营。下面逐一介绍一下:

道法之一,做好计划性运营。


如前所说,互联网业务发展快、变化快、需求多样,一味的保姆式服务是无法满足海量业务的需求的。这样就要求:一方面,运营团队需要梳理清楚自身的工作目录和量化自身的服务能力,形成标准清晰的服务目录。主动管理用户和老板的预期,建立服务支撑模型和基线。另一方面,需要主动地和用户沟通,了解用户的真实需求和业务发展计划,匹配自身的服务目录和能力基线,与用户就需求进行明确、清晰的定义和分级。对于海量通用的一般级别需求,就提供简单的周期性、计划性的标准化运维服务(如一个数据中心的硬盘,只在每周固定时间进行批量更换),只是针对个别重要需求才提供高效可靠的个性化实时保障服务。这样一方面可以推动业务在架构层面做好冗余优化,尽可能的选择通过一般级别的通用标准服务来满足需求。另一方面,也可以有效的减少一味高效可靠服务所带来的高运营成本。有效的做好SO运营模式,一方面能够让运营团队提前了解数据中心面临的业务需求和压力,推动在业务层面就做好风险管理,另一方面,只有做好SO运营,才能让运营团队在海量运营中轻松应对,保障平稳运行。

道法之二,做好自动化运营。


在我们把运营的操作、流程规范化、标准化以后,是否操作人员只要严格按照规范、流程操作就可以把运营工作做好呢?在我们把一些设施设备的运行情况做了监控,能够上报报警信息就可以确保及时、准确的发现问题了吗?当然不是,面对海量的运营需求和事件,单靠人工去按规范、标准是肯定无法有效支撑和保障海量运营的。同样,如果我们的报警信息不做精细化的梳理和收敛,海量的故障信息报上来,运营人员是无法快速、准确定位的。所以说,首先,需要有一支懂得数据中心一线运营流程和基本操作的开发团队。其次,由这支开发团队,开发出相对强大的自动化运营管理平台,通过平台与各个自动化系统和工具进行关联,把运营管理的流程、标准、规范都自然、顺畅的融合到自动化系统中。通过自动化平台,除了帮助数据中心运营管理人员快速、高效的发现和解决问题,还要让运营人员通过自动化平台去快速、准确、高效的做好容量管理、资产管理、风险管理,外包管理等等一系列的数据中心运营管理工作。我们的监控系统,除了精确发现故障、上报故障外,还可以考虑结合业务特性和布局,通过系统工具实现故障的自动修复,提高设备系统的自愈能力。把一线的运营人员,从简单、重复性、例行化的工作中解放出来,让他们能够有更多的精力专注在对数据中心属地的整体运营优化管理工作中,提升数据中心的整体可靠性、运营服务的质量和效率、有效控制能耗和运营成本。

道法之三,做好外包管理和人员培养。


在国内,数据中心行业正在蓬勃发展,但其中专业的数据中心运营人才匮乏,如何培养和留住数据中心专业运营人员,是非常重要的一项工作。客观的说,运营团队一般都会面临压力大、成就感不强、稳定性不好等几个问题,而造成这种局面的主要因素来源于数据中心运营的工作特性——7*24的工作强度、工作内容的重复性、随时可能出现的风险故障,以及如何快速应急的压力。对于运营团队面临的挑战和问题,其中做好技能识别,引入外包资源,平台搭建是一个解决方案。

通过对运营工作及运营人员知识结构的分析,可以考虑引入外包资源,参与一线运营工作。外包的管理工作分两块:一块是,设施设备外包给专业的维保单位来执行。对于专业的数据中心设施设备,用户不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,必须通过专业厂家来执行。用户聚焦在这部分外包维护的计划、执行监管和优化方面。另一块是,把重复性、例行化的标准操作层面的工作,外包给专业的服务提供商来完成,如:巡检、直配、上架、硬件更换等等基础性的操作工作。用户主要聚焦在做好例行工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核方面。而另一部分,技术要求高且需要充分经验支持的优化和风险控制的工作由自有团队中有一定经验的人员来完成。通过技能识别和外包引入,员工的技能和职责匹配度更高,更有利于管理好岗位预期,一定程度上可以缓解运营团队的压力。

除此之外,为运营团队搭建一个知识学习和分享提升的平台也非常重要,为运营人员建立明确的职业发展通道和发展计划,通过各种形式的对内对外技术培训和分享交流等途径来逐渐提升一线运营人员自身的竞争力和行业影响力,帮助运营团队提高岗位认同感和职业成就感。

道法之四,做好预防性维护和应急演练。

对于数据中心预防性维护通常考虑的一个重点就是基础设施部分,基础设施的故障往往对数据中心的稳定运营带来较为严重的影响。一般数据中心基础设施的故障中,70%属电力方面的原因,20%属空调制冷的原因,10%属于光纤铜缆等其他设施的原因。整体而言,前期的产品质量、施工工艺和后期的设施维保工作不到位是造成数据中心出现问题的主要原因。那么如何应对这些故障隐患呢?没有他法,在交付阶段一定要重视机房测试验收的过程。通过假负载测试,一方面帮助验证确保机房各设施、系统的施工质量及系统功能符合要求。另一方面通过模拟可能的故障场景以验证相关系统群控逻辑符合要求,同时获取更多一手数据和验证应急预案的基本可行性。在运营阶段,除了严格做好厂家维护保养工作之外,运营团队日常对高危设施设备有效的预防性巡检工作也非常关键,比如用热成像仪对高危设施设备进行检查可以有效提前发现潜在的故障风险。

另外,每个月1-2次的应急预案实操演练,包括多场景、多系统设施联动的应急预案的处理是否被有效的理解和熟悉,这些都应该在日常运营工作中被重视起来。因为,对于数据中心来说,某个专业系统的设施故障,往往都会联动影响到其他领域的系统出现异常。如:配电系统故障断电,往往也会影响空调系统运行,影响末端制冷,形成高温。那么此时,配电系统应急预案和空调系统的应急预案是需要联动起来同时执行,如果平时的演练不到位,在这样的突发情况下,很难有效从容应对。

除此之外,在制定应急预案和应急演练中还有一块是容易被忽视的,那就是与业务的联动。互联网行业统一产品会提供不同的应用,在基础架构侧出现故障时,如何有效做到业务的“柔性可用”。这就要求数据中心的运营侧要非常了解属地承载的业务特性和重要性分级,明确突发情况下的优先保障机制和不同应用取舍。只有制定匹配业务特性的应急预案,并通过定期的与业务联动的多场景应急演练,确保在出现故障时能够快速有效的确保重点业务或重要应用的连续运行,最终做到统一产品在不同应用上的柔性可用,确保对用户影响的最小化。


道法之五,做好精细化运营。

这一部分,我们重点从两个方面来看,一个是能耗、成本,一个是业务可靠性。首先,我们看看下面的数据:

  • 服务器小于1 万台,全年耗电约0.35 亿千瓦时——电是次要因素。
  • 服务器小于10万台,全年耗电约3.5亿千瓦时——电是重要因素。
  • 服务器达到50万台,全年耗电约17.5亿千瓦时——电是主要成本。
  • 服务器跨越100万台,全年耗电约35亿千瓦时——电是Top1成本!

这个数据表明,当运营一个海量数据中心时,你会发现将作为运营成本之一的电费,将是一个非常庞大的数字,正是因为这个庞大的数字,你会被管理层给“盯上”。所以,精细化运营的一个重点就是要考虑在保证数据中心有效安全稳定运行的情况下,如何节能降耗,从而有效降低电费,控制运营成本,就成了精细化运营的一个重点。(具体节能措施不在此处详述)

其次,基础架构建设可靠性级别再高的数据中心,也不能保证不出任何问题。一方面产品量问题、施工质量问题,甚至人为操作的问题,都很可能影响数据中心的连续性。所以说,如何做好业务可靠性、连续性保障,如何引导业务在自身架构层面做好架构冗余,而不是把安全可靠运行的宝全部压在数据中心基础架构的可靠性上。如何把一个低建设可靠性的数据中心,通过后期运营管理为一个高可靠性的数据中心,以实现业务的快速部署,快速腾挪,跨区冗余,快速调度,才是精细化运营的精彩所在。(具体措施见仁见智,不在此处详述)

【结束语】

互联网数据中心海量运营之路刚起步,路漫漫。。。前路有困难、有挑战、有挫折,但相信经过大家一起努力之后,更有阳光、快乐和成长!


CSDN开设了微信开发者社区供企业共同探讨、借鉴其他行业优秀的应用开发案例,为开发者带来一线“吃螃蟹”的经验得失。另外,企业/用户还可以借助微信项目对接平台,发布微信开发需求、寻找微信开发项目。

转自:腾讯大讲堂

开启文件属性窗口 -VB资料 快速读取 TextBox 第 N 行的资料 -VB资料 快速选择里List全部项目-VB资料 VB利用 App.Path 读取「应用程序所在之目录」 VB利用 EM_LINESCROLL 信息控制 TextBox 的卷动。 命名的技巧 -VB资料 目录所占的字节数-VB资料 VB判断文件是否在IE的缓存中 屏蔽文本框的右键菜单-VB资料 VB取得长文件名 VB取得临时文件名 VB取得某个目录底下所有文件大小总和 VB取得文件的扩展名 VB取得文件内容 确定 TextBox 有几行-VB资料 确定是 WINDOWS 的可执行文件-VB资料 让打印机只打印一行-VB资料 VB如何把批处理文件转换成EXE文件? VB如何调用 Office VB如何将文件删除到回收站 VB如何快速移动文件? VB如何让文本框输入完后,直接跳入下一行? VB如何使用vb取得一个文件的控制权 VB如何使用文件复制对话框? VB如何使用资源文件 VB如何用Dir()函数来列出C下所有TMP文件并且用文本框输出 VB如何在 VB 中使用 Winzip 来压缩文件? VB如何在DOS程序结束执行时,自动将其关闭? VB如何在VB中实现Undo(撤消)功能? VB如何在VB中实现目录遍历 VB如何在Windows操作系统中改变文件打开方式 很菜的问题,关于SDI中修改打开对话框的问题! 国外有那些比较著名的新闻组? 前几天我在书店看到一本书名叫《远程控制编程技术》 没人回答吗?再问一次,请问如何在代码里确定按钮的选中或者未选中状态? 什么是xp任务栏假死? 十万火急!装D6 PACK2之前能用的取临时文件夹的函数现在不能用了。怎么回事? ini文件如何一次性读写多行,多段? 两块硬盘安装2000后的问题 请问如何向C***App类发送消息 如何去掉IE的标题后面的文字? 如何在VB下将DBF表转化成ACCESS或SQL库(多谢指教) 我想写个可以读EXCEL文件的JSP文件 寻找源代码, 100分相赠,求在VC下,如何打开一个目录(相当于Delphi下的目录对话框),然后枚举它下面的所有文件和子目录?? 我太笨了!! 我想到上海去发展,不知道那里的革命形势如何?( 关于一个制作压缩文件的问题!!请大侠进来看看!!! 如何锁住DataGird的前面几列,当点击水平滚条时 看:VB《葵花宝典》--指针技术有不懂的地方?请各位指教? COM,DCOM过时了吗? 快救命啊,否则我自杀了!!!! dbgrid的问题? 主从表中, 主表移动记录时,相应的从表对应的记录都会显示出来。 关于一个制作压缩文件的问题!!请大侠进来看看!!! 帮帮忙吧!exchange 2000 server安装后的问题! test 怎么反編譯.mde COM,DCOM过时了吗? to 各位高手,数组遍历问题 神呀救救我吧 怎样让combobox显示items的第一项值? 第一次约会的时候,她对我说:爱情是有保质期的。 ★★★快来抢100分★★★:在bcb6里,我打开它自带的任何例程都会出错,总提示[Linker Fatal Error] ,why? Midas服务器无法在另一台计算机上运行,只能在本机运行,请问是什么原因? 请问如何知道数据库中有哪些表存在?在线等待 怎样在主框架类里调用文档类指针,以便获得文档类数据? 兄弟,帮个忙! 怎样实现ftp客户端功能 java中如何象windows那样拦截其他窗口的消息? 告别CSDN,第一个全部进入全部给分 同一个submit可否和如何递交给不同的服务器端的不同的action处理? 一个关于tomcat中servlet的棘手问题。。。。。 谁有jbuilder6的license keys或serial number? 請教:vb里dim oRs as ADODB.Recordset與dim oRs as new ADODB.Recordset的區別在哪里? 请大家指点下在深圳哪里可以办个边防证?谢谢 在程序中如何得到一网页中的按钮焦点? 用vc生成曲面要用到那些类? 有關微軟的MCSE認証 请问如何用DELPHI实现拨号连接服务器? 有关界面的问题 如何实现Windows 2000 Server 远程拨号登录?请奉上你的经验和智慧!!! 莱鸟级的问题,你敢来挑战吗? 资本主义社会的社会制度是什么样的? 下列物质溶解于水时,溶液的温度无明显变化的是 A,浓硫酸 B,氢氧化钠固体 C,氧化钙固体 D,硝酸钾晶体选D 请问为什么 (2011年淄博中考题) 古代表年龄的词语排列1.及开2.垂髫3.弱冠4.豆蔻(从小到大) 为提高百米赛跑运动员的成绩,教练员分析了运动员跑百米全程的录象带,测得:运动员在前7S跑了61米,7S末到7.1S末跑了0.92米,跑到终点共用了10.8S,则选对的答案:A运动员在百米全过程的平均速 溴乙烷水解到底生成乙醇还是乙烯 古代表示女子年龄的词语有那些,具体表示多少年纪 某质点沿半径R=5cm的圆形轨道以恒定的速率运动,经过10S运动了2圆周,问该物体10S内平均速度大小是多少?瞬时速度大小是多少?我要有思路分路分析! 氢氧化钠、浓硫酸、硝酸钾晶体、氧化钙溶解在水中,溶液温度无明显变化的是哪个? 古代特定指不同年龄段的词语,如七十岁时就说“古稀”还有二十、三十、四十、五十、六十、八十、九十、一百都分别怎么说? 加速度的方向为什么和速度变化的方向一致,而不和平均速度方向一致? 化学有机物烷烃的命名看结构式命名的一个口诀有么?顺便有比较容易记的肯定不成立的错误命名么?就是书上写的不明不白的才来问的~我们老师都说教材改的越来越不像样了~该有的都删了或 制备溴乙烷的实验中为什么乙醇要过量? 不明白平均速度和平均速率,以及瞬时速度和瞬时速率?V=S/T 和 V=L/T到底怎么用的?我们老师说:假设一个人在操场跑一圈,问他的平均速度是没有意义的.我不懂为什么,最好附上个例题 化学有机物烷烃的命名 急(CH3)2CCH(CH3)CH2CH(CH2)CH(C2H5)2的名字是什么啊?太多了我分不清啊~括号外面的和字母前面的是小标~达人帮下忙 解释古代诗句唐雎不辱使命中:"仓鹰击于殿上"( )"长跪而谢之":要一字一字的解释 以54km/h的速度行驶的汽车,因故需要中途停车.若减速的加速度大小是0.3m/s^2,停留时间是1分钟,启动时的加速度大小是0.5/m^2.求汽车因临时停车所延误的时间. 化学有机物烷烃的命名的小疑惑2-甲基-4,5-二乙基己烷 名称是否正确?我觉得没什么问题可答案说是错误的,是2,5-二甲基-4-乙基庚烷,非常奇怪这道题没有图的,考的是命名上是否有原则上的错 有没有一段古代的词语或名言名句能说明有没有一段古代的句子或名言名句能说明 我拥有很多东西,但还是感觉寂寞,或说我不想拥有的拥有了,但都不是我想要的.小弟不才能不能有位有才华 汽车关闭油门的瞬时速度是什么 高中化学有机物烷烃部分请问下烷烃(要用例子就以甲烷或乙烷好了,简单点)与HX反应和以X2(像Br2,Cl2)这样反应是什么不同吗?烷烃是与它们发生取代反应,是两个原子分别取代烷烃中的氢 求解释以下词语在古代的说法,1、房门 2、您 关闭油门,汽车会慢慢停下来 受到了什么力? 细胞骨架的主要成分?各自有什么功能? 高中化学苯与一般烯烃在性质上有很大差问题1,下列事实中,能说明苯与一般烯烃在性质上有很大差别的是()A,苯不跟溴水反应B,苯不跟高锰酸钾溶液反应C,1mol苯能与3mol,H2进行加成反应D,苯是不 为什么汽车关闭油门时的瞬时速度比行驶中的速度大 细胞骨架是什么 英语翻译如题 质量为m的汽车经过A点时速度为v0,这时关闭油门,恰能冲上高度为H的斜坡,求汽车在冲上斜坡的过程中克服摩擦力所做的功 细胞骨架观察中戊二醛的作用? 曲水流觞是什么意思,要这个词的解释,不要介绍古代故事如题 谢谢了 如何处理温表水银,温度计摔坏了? 溴乙烷和氢氧化钠乙醇发生消去反应的温度 溴乙烷和氢氧化钠发生取代反应的温度溴乙烷能不能直接和氢氧化钠反应生成乙烯 词语古柳参差怎么解释? 在正常情况下,火车以54km/h的速度开过一个小站,现在因故需在该站停留1min.若已知火车进站过程中减速的位移为375m,出站过程中加速的位移为225m.出站加速后即恢复了正常行驶速度.假说火车进 封建社会,地主为什么会剥削农民啊? 什么是细胞骨架中的蛋白质纤维?(成分组成及作用)要准确.不晓得的就不答. 火车沿平直轨道匀加速前进,通过某段路标,速度为10.8km/h,1min后变为54km/h,还需要经多少时 为什么在封建社会,地主土地私有制占土地私有制的主导? 皇帝是不是地主阶级? 检验氢氧化钠中的杂质氧化钙 情痴入此魔,情至微毫敛 古代封建社会是一种什么状态,和近代封建地主阶级时的封建社会是一样的么?封建社会从什么时候开始的呢 氢氧化钠和氧化钙的变质是怎么回事?和空气中的水和二氧化碳都有关吗? 明月松间照,清泉石上流江碧鸟愈白,山青花欲然千里莺啼绿映红,水村山郭酒旗风山重水复疑无路,柳暗花明又一村水南水北重重柳,山前山后处处梅 贪婪可以怎样组词?11 NaCl溶液能导电是因为溶液中有Na+和Cl-为什么这句话不正确? 请文学高手解读下含义在沸沸扬扬的姹紫嫣红里,有一抹轻浅的绿在远方摇曳,积累的心事如藤蔓郁郁葱葱起来,思念蜿蜒向有你的方向延伸.一个我喜欢的女孩在我空间里留的言,请高手解读一 下列药品中,不需要密封保存的是 A.浓盐酸 B.浓硫酸 C.食盐 D.烧碱 中国以后有没有可能走资本主义路线?我不太懂政治,所以我问一下,因为我有点疑问.现在的中国,跟周边的国家差不多一样,但是又分为资本主义与社会主义,我搞不懂,中国与周边的国家没什么 古代官僚制度弊端 下列哪项不是细胞骨架的功能A决定细胞形状 B参与新陈代谢 C参与细胞分裂 D为细胞运动提供动力 在醋酸、熟石灰、烧碱、浓硫酸、食盐中选择适当的物质填空(写化学式)用作调味品和防腐剂的是 ?除去家中热水瓶里水垢的是 ?用于改良土壤酸性的是 ?能洗去油腻物质的是 官僚制度是什么 细胞骨架中怎样理解骨架概念 目前世界上除了社会主义和资本主义还有什么社会制度社会主义和资本主义制度区别在哪 不要书本上的套话 说些容易懂 某温度时,向一定量的的饱和氢氧化钠溶液中加入少量生石灰,再回复到原温,下列各相关的变化图像正确的是 BC是否都正确? 为何说细胞骨架体系在细胞结构与生命活动中具有全方位的意义 中国的社会制度真的比资本主义优秀么? 氢氧化钠晶体和生石灰溶于水都能使混合物的温度升高,这两者的原理是否完全相同? 请教各位 Scaffold这个词应如何理解?是细胞骨架吗
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘