说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

浅谈互联网数据中心海量运营之道

HTML文档下载 WORD文档下载 PDF文档下载
随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?

【编者按】互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,承载的业务也呈现海量增长模式。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?除了建立完善的运营体系,其思路和方法同样很重要。本文节选自腾讯大讲堂,文中详细阐述了如何做好自动化运营、计划性运营、做好精细化运营、预防性维护和应急演练以及做好外包管理、和人员培养的解决之道。


随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。以腾讯为例,其拥有即时通信活跃账户8.08亿个,最高同时在线1.8亿个;微信/WeChat合并月活跃帐户数达到3.55亿个;QQ空间月活跃帐户数达到6.25亿个;每日发送通信消息超过180亿条;每日上传图片3.60亿张。


面对如此海量的用户和业务,我们的数据中心运营又未尝不是海量的,如下数据应该能够有所说明:

  • MonthlyDeliver server 10,000+;
  • Monthlyreboot request 4,000+;
  • Monthlymigration request 2,000+;
  • MonthlyOS re-installation 2,000+;
  • MonthlyHardware replacement 500+;
  • MonthlyHard-drive replacement 800+;

面对如此海量的设备和需求,我们应该采取什么样的方式,才能保障数据中心的安全、高效、稳定的运营呢?其实,这样的问题一直以来都存在,需要考虑的点、线、面也很多,每个运营管理者都会有很多的想法和措施。对于互联网公司而言,面对海量数据的挑战,一定要建立完善的运营管理体系。但今天,我们不谈体系,而是关于如何做好互联网数据中心海量运营的思路和方法,就个人的体会,做一些散谈。(当然,如有不妥之处还请包涵。)

个人认为,在满足业务高速发展时,大规模数据中心的海量运营过程中必然存在诸多的问题和挑战,那是否我们需要针对所有的问题和挑战,都制定详细的解决方案去快速应对呢?我想大家的回答应该都是否定的。确实,我们要想快速有效的提高海量运营的水平,一定要找准制约我们做好海量运营保障的主要矛盾,排出优先级,有针对性的把关键的几个点先解决好。个人目前所关注的做好数据中心海量运营的五大道法是:做好计划性运营、做好自动化运营、做好外包管理和人员培养、做好预防性维护和应急演练、做好精细化运营。下面逐一介绍一下:

道法之一,做好计划性运营。


如前所说,互联网业务发展快、变化快、需求多样,一味的保姆式服务是无法满足海量业务的需求的。这样就要求:一方面,运营团队需要梳理清楚自身的工作目录和量化自身的服务能力,形成标准清晰的服务目录。主动管理用户和老板的预期,建立服务支撑模型和基线。另一方面,需要主动地和用户沟通,了解用户的真实需求和业务发展计划,匹配自身的服务目录和能力基线,与用户就需求进行明确、清晰的定义和分级。对于海量通用的一般级别需求,就提供简单的周期性、计划性的标准化运维服务(如一个数据中心的硬盘,只在每周固定时间进行批量更换),只是针对个别重要需求才提供高效可靠的个性化实时保障服务。这样一方面可以推动业务在架构层面做好冗余优化,尽可能的选择通过一般级别的通用标准服务来满足需求。另一方面,也可以有效的减少一味高效可靠服务所带来的高运营成本。有效的做好SO运营模式,一方面能够让运营团队提前了解数据中心面临的业务需求和压力,推动在业务层面就做好风险管理,另一方面,只有做好SO运营,才能让运营团队在海量运营中轻松应对,保障平稳运行。

道法之二,做好自动化运营。


在我们把运营的操作、流程规范化、标准化以后,是否操作人员只要严格按照规范、流程操作就可以把运营工作做好呢?在我们把一些设施设备的运行情况做了监控,能够上报报警信息就可以确保及时、准确的发现问题了吗?当然不是,面对海量的运营需求和事件,单靠人工去按规范、标准是肯定无法有效支撑和保障海量运营的。同样,如果我们的报警信息不做精细化的梳理和收敛,海量的故障信息报上来,运营人员是无法快速、准确定位的。所以说,首先,需要有一支懂得数据中心一线运营流程和基本操作的开发团队。其次,由这支开发团队,开发出相对强大的自动化运营管理平台,通过平台与各个自动化系统和工具进行关联,把运营管理的流程、标准、规范都自然、顺畅的融合到自动化系统中。通过自动化平台,除了帮助数据中心运营管理人员快速、高效的发现和解决问题,还要让运营人员通过自动化平台去快速、准确、高效的做好容量管理、资产管理、风险管理,外包管理等等一系列的数据中心运营管理工作。我们的监控系统,除了精确发现故障、上报故障外,还可以考虑结合业务特性和布局,通过系统工具实现故障的自动修复,提高设备系统的自愈能力。把一线的运营人员,从简单、重复性、例行化的工作中解放出来,让他们能够有更多的精力专注在对数据中心属地的整体运营优化管理工作中,提升数据中心的整体可靠性、运营服务的质量和效率、有效控制能耗和运营成本。

道法之三,做好外包管理和人员培养。


在国内,数据中心行业正在蓬勃发展,但其中专业的数据中心运营人才匮乏,如何培养和留住数据中心专业运营人员,是非常重要的一项工作。客观的说,运营团队一般都会面临压力大、成就感不强、稳定性不好等几个问题,而造成这种局面的主要因素来源于数据中心运营的工作特性——7*24的工作强度、工作内容的重复性、随时可能出现的风险故障,以及如何快速应急的压力。对于运营团队面临的挑战和问题,其中做好技能识别,引入外包资源,平台搭建是一个解决方案。

通过对运营工作及运营人员知识结构的分析,可以考虑引入外包资源,参与一线运营工作。外包的管理工作分两块:一块是,设施设备外包给专业的维保单位来执行。对于专业的数据中心设施设备,用户不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,必须通过专业厂家来执行。用户聚焦在这部分外包维护的计划、执行监管和优化方面。另一块是,把重复性、例行化的标准操作层面的工作,外包给专业的服务提供商来完成,如:巡检、直配、上架、硬件更换等等基础性的操作工作。用户主要聚焦在做好例行工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核方面。而另一部分,技术要求高且需要充分经验支持的优化和风险控制的工作由自有团队中有一定经验的人员来完成。通过技能识别和外包引入,员工的技能和职责匹配度更高,更有利于管理好岗位预期,一定程度上可以缓解运营团队的压力。

除此之外,为运营团队搭建一个知识学习和分享提升的平台也非常重要,为运营人员建立明确的职业发展通道和发展计划,通过各种形式的对内对外技术培训和分享交流等途径来逐渐提升一线运营人员自身的竞争力和行业影响力,帮助运营团队提高岗位认同感和职业成就感。

道法之四,做好预防性维护和应急演练。

对于数据中心预防性维护通常考虑的一个重点就是基础设施部分,基础设施的故障往往对数据中心的稳定运营带来较为严重的影响。一般数据中心基础设施的故障中,70%属电力方面的原因,20%属空调制冷的原因,10%属于光纤铜缆等其他设施的原因。整体而言,前期的产品质量、施工工艺和后期的设施维保工作不到位是造成数据中心出现问题的主要原因。那么如何应对这些故障隐患呢?没有他法,在交付阶段一定要重视机房测试验收的过程。通过假负载测试,一方面帮助验证确保机房各设施、系统的施工质量及系统功能符合要求。另一方面通过模拟可能的故障场景以验证相关系统群控逻辑符合要求,同时获取更多一手数据和验证应急预案的基本可行性。在运营阶段,除了严格做好厂家维护保养工作之外,运营团队日常对高危设施设备有效的预防性巡检工作也非常关键,比如用热成像仪对高危设施设备进行检查可以有效提前发现潜在的故障风险。

另外,每个月1-2次的应急预案实操演练,包括多场景、多系统设施联动的应急预案的处理是否被有效的理解和熟悉,这些都应该在日常运营工作中被重视起来。因为,对于数据中心来说,某个专业系统的设施故障,往往都会联动影响到其他领域的系统出现异常。如:配电系统故障断电,往往也会影响空调系统运行,影响末端制冷,形成高温。那么此时,配电系统应急预案和空调系统的应急预案是需要联动起来同时执行,如果平时的演练不到位,在这样的突发情况下,很难有效从容应对。

除此之外,在制定应急预案和应急演练中还有一块是容易被忽视的,那就是与业务的联动。互联网行业统一产品会提供不同的应用,在基础架构侧出现故障时,如何有效做到业务的“柔性可用”。这就要求数据中心的运营侧要非常了解属地承载的业务特性和重要性分级,明确突发情况下的优先保障机制和不同应用取舍。只有制定匹配业务特性的应急预案,并通过定期的与业务联动的多场景应急演练,确保在出现故障时能够快速有效的确保重点业务或重要应用的连续运行,最终做到统一产品在不同应用上的柔性可用,确保对用户影响的最小化。


道法之五,做好精细化运营。

这一部分,我们重点从两个方面来看,一个是能耗、成本,一个是业务可靠性。首先,我们看看下面的数据:

  • 服务器小于1 万台,全年耗电约0.35 亿千瓦时——电是次要因素。
  • 服务器小于10万台,全年耗电约3.5亿千瓦时——电是重要因素。
  • 服务器达到50万台,全年耗电约17.5亿千瓦时——电是主要成本。
  • 服务器跨越100万台,全年耗电约35亿千瓦时——电是Top1成本!

这个数据表明,当运营一个海量数据中心时,你会发现将作为运营成本之一的电费,将是一个非常庞大的数字,正是因为这个庞大的数字,你会被管理层给“盯上”。所以,精细化运营的一个重点就是要考虑在保证数据中心有效安全稳定运行的情况下,如何节能降耗,从而有效降低电费,控制运营成本,就成了精细化运营的一个重点。(具体节能措施不在此处详述)

其次,基础架构建设可靠性级别再高的数据中心,也不能保证不出任何问题。一方面产品量问题、施工质量问题,甚至人为操作的问题,都很可能影响数据中心的连续性。所以说,如何做好业务可靠性、连续性保障,如何引导业务在自身架构层面做好架构冗余,而不是把安全可靠运行的宝全部压在数据中心基础架构的可靠性上。如何把一个低建设可靠性的数据中心,通过后期运营管理为一个高可靠性的数据中心,以实现业务的快速部署,快速腾挪,跨区冗余,快速调度,才是精细化运营的精彩所在。(具体措施见仁见智,不在此处详述)

【结束语】

互联网数据中心海量运营之路刚起步,路漫漫。。。前路有困难、有挑战、有挫折,但相信经过大家一起努力之后,更有阳光、快乐和成长!


CSDN开设了微信开发者社区供企业共同探讨、借鉴其他行业优秀的应用开发案例,为开发者带来一线“吃螃蟹”的经验得失。另外,企业/用户还可以借助微信项目对接平台,发布微信开发需求、寻找微信开发项目。

转自:腾讯大讲堂

VB如何为执行程序加上参数? VB如何压缩较长的全路径文件名中的路径 (Path) 字串长度? VB如何在VB中实现密码的读取 如何在VB中使用命令行参数 VB如何在内存中的指定位置取数据? VB如何在已经存在的文本的textbox添加新的一行 VB如何在資料庫中存入單引號? VB如何正确使用VB6访问Access2000数据库 VB如何自动记录计算机开机时间? VB如何做到当我们单击窗体的最小化和关闭按钮时,窗体先最小化到任务栏成为按钮,然后消失呢?金山词霸能 软件工程篇-Const与#Const的对比 -VB资料 软件工程篇-从Visual Data Manager开始 -VB资料 软件工程篇-理解错误处理代理 -VB资料 软件工程篇-清空集合内容的几种方法 -VB资料 软件工程篇-受限制的共享软件Shareware -VB资料 设定CapsLock ScrollLock NumLock-VB资料 设置计算机名称-VB资料 深入SERIPTING RUNTIME LIBRARY-VB资料 '识别常数的简单四则运算-VB资料 实现平面工具栏 -VB资料 使程序不在 Ctrl+Alt+Del 弹出的对话框内-VB资料 VB使用 API 开始屏幕保护 VB使用rdoPreparedStatement实现参数化查询 使用Vb5制作Easter Egg 使用VB实现所见即所得功能 使用VB中的SERIPTING RUNTIME LIBRARY VB使用Win95的动画光标 VB使用Windows内建的图标 VB使用Word的“艺术字”工具 VB使用WriteFile 块读/写数据 VB使用枚举变量 VC++里面如何从文本文件中一行一行读取文件? 请问,如何用mail函数批量发送邮件.多谢. 各位请教一下,Jsp 的服务resin在win2000下是怎样配置的 各位兄弟: 有谁知道 侯杰 的 <多线程程序设计> 什么时候才能买到??? 哪里有VFP3.0下载? system.ini和win.ini的作用 怎样生成安装包,多谢! 如何在两个不同的应用程序之间拖动文本字符 请问,PTSTR 和 PSTR 有什么不同? 反对上海电信变相涨价的行为。我能不能告中国电信“违约”和“欺诈”呢。 求救!误删Office2000注册表! 生成.exe出错 在Excel中,如何让某些行不能滚动? 在--成都--程序员能拿多少--¥--???? 换了17寸纯平显示器,开心,放分. 错装PB7,不能无create datawindows的图标,全是XX,为什么? 请问怎样遍历一个页面中服务器端的所有对象? 能否跟我说说——自动控制方面——与delphi编程的基本常识?我一直想了解,但不知道我们编的程序如何去跟那些硬件搞在一起而且控制硬件呢? 程序出错 发现一个不错的网站!www.ffboy.com 兩個Recordset之間數据轉入和轉出問題???. 高手請進......(一定給分) 大家推荐一下 ,win2k 下的 XML 编辑器。 请问男女之间存不存在真正的友情? 请教一下,怎样打印 java applet绘出的图形?,要用java 编写 高手请进!!!关于数据库 很菜的问题!字符串转化的问题? 最近运行D盘时,出来"找不到该路径..."的对话框,是什么原因? 指针数组定义的问题 我想截获tcp包,问从何下手,大鸟们 快来帮忙 远程数据传输问题:不同地域,不同系统间的数据传送有什么好方法? 急!!!(原谅我的无知) DELPHI怎么联接Access数据库!!!BDE ADO都可以!!!! 求安装制作软件 请问进行OpenGL编程除了VC和C++BUILDER外,还有什么工具可用?????? 请教一下,怎样在jsp中捕获 java applet 的按钮事件 一道填空题,大家看一看呀 小弟对现公司特别反感,很想换个学习环境比较好一点的,但是公司又要叫我签下一年的合同,我真是难办。 关于扩展名为.DAT文件的问题。 himen.sys文件的作用? 给SQL2000存储过程批量加密? 如何定义一个和Excel内嵌函数一样的用户自定义函数? 如何用DELPHI扫描所有硬盘的所有文件 老生常谈的一个问题?qq上mm问:“你张的帅么?“怎样回答最好呀!!! 如何扫描局域网共享资源(及进行密码验证)-只想知道原理无其它意思 VC++里面如何从文本文件中一段一段读取文件? 急求大型网络可行性报告(规划书) 为什么,能增加新记录,却不能更新旧记录? 强烈推荐:很多好书,包括中文版的《thinking in java》,下载速度暴快!! 急救!请问在SOFTICE命令框下输入 BPX HMEMCPY 后按回车,报错HMEMCPY SYMBOL NOT DEFINE 如何动态获取interbse数据库中可用表的信息? Linux7.2如何mount NT分区? 10S内通过某导体横截面的电荷量为6库,电流做功36焦,通过导体的电流为------安,导体两端的电压为--伏什么是电荷量啊 为什么月要反射太阳的光? 狐狸有哪几种? 某导体两端为电压为6V,通过他的电流为0.5A,10s内通过该导体横截面的电荷量为()C,电流做功为()J. 地球上白天的光是太阳直接照亮的还是月亮反射的 狐狸有多少色 月亮本身不发光,月光是月亮对( )的反射? 设随机变量(X,Y)的概率密度为f(x,y)={3/8π(2-(x^2+y^2)^1/2,x^2+y^2=4,则(X,Y)落在圆域x^2+y^2 狐狸是什么颜色的的英语 关联词 月亮不能发光 月亮能反射太阳光除“虽然……但是……” 10s内通过某导体横截面积的电量为5C,电流做功为50 J,则通过该导体的电流为?导体两端的电压为? 雪有几种颜色? 月球是一个不发光的球体,我们看到的月光是它反射太阳的光.这句话对不对? 一段电阻为5欧的导体,每通过30库电量时,电流做功150焦,则通电时间?加在这段导体两端电压? 我拿一个普通的发光二极管(绿色、3.2v)通过改变其通过电流大小以期改变其颜色,最多可以看到几种颜色?为什么不能看到全部的七色?大家觉得如果我去记录每一种颜色确切的电流范围是否 标有“220V 40W”电热器安装在220V的电路中,则通过电热器的电流时多少?工作10s后,所消耗的电能是多少J?产生的热量又是多少J? 10s内通过某导体横截面积的电量为5库,电流做功180J,则通过该导体的电流为,导体两端的电压为多少V,电阻是多少 设随机变量X在区间(-2,1)上服从均匀分布,求Y=1/(1+x)的概率密度 稳压电源:要求:输入220V电压,输出40V左右直流电压,5-10S之后,输出直流电压稳定在15V左右,电流1A. 1分钟内通过导体R横截面积的电量是12库,电流做功48焦,那么R两端的电压为多少伏?它的功率为多少瓦? 网点组织色彩的基本方式有哪几种? 电功的物理意义是什么RT 将表有220V 750W微波炉接在电压为220V的电路上,通过它的电流是_他的电阻是_这个微波炉2分钟消耗的电能是 月亮为什么为什么会发出太阳反射的光 月食大约在几月 某导体的电阻为10Ω,通过导体的电流为0.5A,通电10S,导体消耗了多少电能 月球的物质是什么,为什么可以反射阳光? 月亮为什么会月食 月亮反射太阳的光,那么月光也是七色光吗? 设X~U(-π/2,π/2),令Y=tanx ,求Y的概率密度看的是书上的例题,使用的是fx(h(y))|h'(y)|的公式法求解,就是下图例5,不明白fx(h(y))那里为什么等于1/π, 今年几月几日有月蚀的?在江苏盐城地区可以看到月蚀吗 月亮反射了太阳多少光 1kw等于多少焦耳 某家用60w的灯四盏,换成11w的灯.问若平均每天用5小时电,1年(365天)节约多少千瓦时 星星因为体积,质量不同,而发出不同的光.月亮也有质量,但是月光却是:反射的太阳光呢比如,我们能看见的行星:金星等等.它就是自己的光.而看见的月亮(地球的卫星),确是反射的太阳光. 彩虹有多少种颜色?有哪几种? 1.家庭电路电压在用电高峰时段时会降低到198V,一盏“220V,100W”的灯泡在此电压下工作的实际功率是( ) 2灯的亮度取决于( )A.灯的电阻 B.通过灯的电流 C.灯的额定电压 D.灯的实际功率 导体两端的电压为3v时,通过导体的电流是0.3A如果加在导体两端的电压变为0v时,那那么该导体的电阻是A:0.9欧 B:10欧 C:0欧 D:0.01欧 彩虹有几种颜色,分别是哪些颜色? 月亮会发光吗 某导体两端电压为15V,此时通过导体的电流为3A,若导体两端的电压增加3V,此时通过导体的电流和导体的电阻分别是( )A 0.6A 5欧姆B 3.6A 5欧姆C 3.6A 1欧姆 D 4A 6欧姆 彩虹有几种颜色? 月球会不会发光 10s内通过某导体横截面积的电荷量为2C,通过电流?,电压6V,电阻为?Ω.两端的电压为3V时,该电阻为?ΩC是什么? 彩虹是哪几种颜色的? 月球会发光吗? 概率论 概率密度函数 问题二维随机向量(X,Y)的联合概率分布为f(x,y)={e^-(x+y) ,x>=0 y>=0 {0 , 其他求:1、Z=(X+Y)/2的概率密 设随机变量X和Y相互独立,且都服从区间(-1,1)上的均匀分布,求E|X-Y| 月亮为什么会发光?是因为太阳照吗?还是其他原因? 概率论问题关于概率密度函数 在这几种颜色里选一种作为房间墙壁的颜色,你们认为哪个适合?给女生卧室选墙壁颜色,有这几种颜色;淡粉色,淡紫色,淡蓝色,淡黄色,淡绿色喜欢温馨一点的 简单的概率论与数理统计题目,判断哪些可以作为某随机变量的分布函数,哪些不可以,为什么 概率论中条件概率密度函数的计算问题问题写在第二张图片了,麻烦各位老师看看,我那样算可以吗?好像算出来的结果是一样的 一套房子全部贴墙纸共用几种颜色好 一段导体两端的电压是24V,通过的电流是0.5A,这段导体消耗的电功率是()W,通电10s产生的热值() 问一条概率论的题...关于概率密度函数设随机变量x~u(0,π),求下列随机变量Y的概率密度函数.已知Y=2ln X...如果有公式什么的讲解会加分的~ 王叔叔要把房间的四壁图上不同的颜色,但结果不管怎么涂,至少有两面墙的颜色相同,颜料的颜色至少有几种 某导体两端电压为6V,通过它的电流为0.5A,10s内通过该导体横截面的电荷量为()C? 概率论,求条件概率密度函数 二氧化碳能防止食物腐烂吗,为什么 氮气和氦气哪个在空气中的化学性质更活泼,为什么
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn