说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

浅谈互联网数据中心海量运营之道

HTML文档下载 WORD文档下载 PDF文档下载
随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?

【编者按】互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,承载的业务也呈现海量增长模式。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?除了建立完善的运营体系,其思路和方法同样很重要。本文节选自腾讯大讲堂,文中详细阐述了如何做好自动化运营、计划性运营、做好精细化运营、预防性维护和应急演练以及做好外包管理、和人员培养的解决之道。


随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。以腾讯为例,其拥有即时通信活跃账户8.08亿个,最高同时在线1.8亿个;微信/WeChat合并月活跃帐户数达到3.55亿个;QQ空间月活跃帐户数达到6.25亿个;每日发送通信消息超过180亿条;每日上传图片3.60亿张。


面对如此海量的用户和业务,我们的数据中心运营又未尝不是海量的,如下数据应该能够有所说明:

  • MonthlyDeliver server 10,000+;
  • Monthlyreboot request 4,000+;
  • Monthlymigration request 2,000+;
  • MonthlyOS re-installation 2,000+;
  • MonthlyHardware replacement 500+;
  • MonthlyHard-drive replacement 800+;

面对如此海量的设备和需求,我们应该采取什么样的方式,才能保障数据中心的安全、高效、稳定的运营呢?其实,这样的问题一直以来都存在,需要考虑的点、线、面也很多,每个运营管理者都会有很多的想法和措施。对于互联网公司而言,面对海量数据的挑战,一定要建立完善的运营管理体系。但今天,我们不谈体系,而是关于如何做好互联网数据中心海量运营的思路和方法,就个人的体会,做一些散谈。(当然,如有不妥之处还请包涵。)

个人认为,在满足业务高速发展时,大规模数据中心的海量运营过程中必然存在诸多的问题和挑战,那是否我们需要针对所有的问题和挑战,都制定详细的解决方案去快速应对呢?我想大家的回答应该都是否定的。确实,我们要想快速有效的提高海量运营的水平,一定要找准制约我们做好海量运营保障的主要矛盾,排出优先级,有针对性的把关键的几个点先解决好。个人目前所关注的做好数据中心海量运营的五大道法是:做好计划性运营、做好自动化运营、做好外包管理和人员培养、做好预防性维护和应急演练、做好精细化运营。下面逐一介绍一下:

道法之一,做好计划性运营。


如前所说,互联网业务发展快、变化快、需求多样,一味的保姆式服务是无法满足海量业务的需求的。这样就要求:一方面,运营团队需要梳理清楚自身的工作目录和量化自身的服务能力,形成标准清晰的服务目录。主动管理用户和老板的预期,建立服务支撑模型和基线。另一方面,需要主动地和用户沟通,了解用户的真实需求和业务发展计划,匹配自身的服务目录和能力基线,与用户就需求进行明确、清晰的定义和分级。对于海量通用的一般级别需求,就提供简单的周期性、计划性的标准化运维服务(如一个数据中心的硬盘,只在每周固定时间进行批量更换),只是针对个别重要需求才提供高效可靠的个性化实时保障服务。这样一方面可以推动业务在架构层面做好冗余优化,尽可能的选择通过一般级别的通用标准服务来满足需求。另一方面,也可以有效的减少一味高效可靠服务所带来的高运营成本。有效的做好SO运营模式,一方面能够让运营团队提前了解数据中心面临的业务需求和压力,推动在业务层面就做好风险管理,另一方面,只有做好SO运营,才能让运营团队在海量运营中轻松应对,保障平稳运行。

道法之二,做好自动化运营。


在我们把运营的操作、流程规范化、标准化以后,是否操作人员只要严格按照规范、流程操作就可以把运营工作做好呢?在我们把一些设施设备的运行情况做了监控,能够上报报警信息就可以确保及时、准确的发现问题了吗?当然不是,面对海量的运营需求和事件,单靠人工去按规范、标准是肯定无法有效支撑和保障海量运营的。同样,如果我们的报警信息不做精细化的梳理和收敛,海量的故障信息报上来,运营人员是无法快速、准确定位的。所以说,首先,需要有一支懂得数据中心一线运营流程和基本操作的开发团队。其次,由这支开发团队,开发出相对强大的自动化运营管理平台,通过平台与各个自动化系统和工具进行关联,把运营管理的流程、标准、规范都自然、顺畅的融合到自动化系统中。通过自动化平台,除了帮助数据中心运营管理人员快速、高效的发现和解决问题,还要让运营人员通过自动化平台去快速、准确、高效的做好容量管理、资产管理、风险管理,外包管理等等一系列的数据中心运营管理工作。我们的监控系统,除了精确发现故障、上报故障外,还可以考虑结合业务特性和布局,通过系统工具实现故障的自动修复,提高设备系统的自愈能力。把一线的运营人员,从简单、重复性、例行化的工作中解放出来,让他们能够有更多的精力专注在对数据中心属地的整体运营优化管理工作中,提升数据中心的整体可靠性、运营服务的质量和效率、有效控制能耗和运营成本。

道法之三,做好外包管理和人员培养。


在国内,数据中心行业正在蓬勃发展,但其中专业的数据中心运营人才匮乏,如何培养和留住数据中心专业运营人员,是非常重要的一项工作。客观的说,运营团队一般都会面临压力大、成就感不强、稳定性不好等几个问题,而造成这种局面的主要因素来源于数据中心运营的工作特性——7*24的工作强度、工作内容的重复性、随时可能出现的风险故障,以及如何快速应急的压力。对于运营团队面临的挑战和问题,其中做好技能识别,引入外包资源,平台搭建是一个解决方案。

通过对运营工作及运营人员知识结构的分析,可以考虑引入外包资源,参与一线运营工作。外包的管理工作分两块:一块是,设施设备外包给专业的维保单位来执行。对于专业的数据中心设施设备,用户不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,必须通过专业厂家来执行。用户聚焦在这部分外包维护的计划、执行监管和优化方面。另一块是,把重复性、例行化的标准操作层面的工作,外包给专业的服务提供商来完成,如:巡检、直配、上架、硬件更换等等基础性的操作工作。用户主要聚焦在做好例行工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核方面。而另一部分,技术要求高且需要充分经验支持的优化和风险控制的工作由自有团队中有一定经验的人员来完成。通过技能识别和外包引入,员工的技能和职责匹配度更高,更有利于管理好岗位预期,一定程度上可以缓解运营团队的压力。

除此之外,为运营团队搭建一个知识学习和分享提升的平台也非常重要,为运营人员建立明确的职业发展通道和发展计划,通过各种形式的对内对外技术培训和分享交流等途径来逐渐提升一线运营人员自身的竞争力和行业影响力,帮助运营团队提高岗位认同感和职业成就感。

道法之四,做好预防性维护和应急演练。

对于数据中心预防性维护通常考虑的一个重点就是基础设施部分,基础设施的故障往往对数据中心的稳定运营带来较为严重的影响。一般数据中心基础设施的故障中,70%属电力方面的原因,20%属空调制冷的原因,10%属于光纤铜缆等其他设施的原因。整体而言,前期的产品质量、施工工艺和后期的设施维保工作不到位是造成数据中心出现问题的主要原因。那么如何应对这些故障隐患呢?没有他法,在交付阶段一定要重视机房测试验收的过程。通过假负载测试,一方面帮助验证确保机房各设施、系统的施工质量及系统功能符合要求。另一方面通过模拟可能的故障场景以验证相关系统群控逻辑符合要求,同时获取更多一手数据和验证应急预案的基本可行性。在运营阶段,除了严格做好厂家维护保养工作之外,运营团队日常对高危设施设备有效的预防性巡检工作也非常关键,比如用热成像仪对高危设施设备进行检查可以有效提前发现潜在的故障风险。

另外,每个月1-2次的应急预案实操演练,包括多场景、多系统设施联动的应急预案的处理是否被有效的理解和熟悉,这些都应该在日常运营工作中被重视起来。因为,对于数据中心来说,某个专业系统的设施故障,往往都会联动影响到其他领域的系统出现异常。如:配电系统故障断电,往往也会影响空调系统运行,影响末端制冷,形成高温。那么此时,配电系统应急预案和空调系统的应急预案是需要联动起来同时执行,如果平时的演练不到位,在这样的突发情况下,很难有效从容应对。

除此之外,在制定应急预案和应急演练中还有一块是容易被忽视的,那就是与业务的联动。互联网行业统一产品会提供不同的应用,在基础架构侧出现故障时,如何有效做到业务的“柔性可用”。这就要求数据中心的运营侧要非常了解属地承载的业务特性和重要性分级,明确突发情况下的优先保障机制和不同应用取舍。只有制定匹配业务特性的应急预案,并通过定期的与业务联动的多场景应急演练,确保在出现故障时能够快速有效的确保重点业务或重要应用的连续运行,最终做到统一产品在不同应用上的柔性可用,确保对用户影响的最小化。


道法之五,做好精细化运营。

这一部分,我们重点从两个方面来看,一个是能耗、成本,一个是业务可靠性。首先,我们看看下面的数据:

  • 服务器小于1 万台,全年耗电约0.35 亿千瓦时——电是次要因素。
  • 服务器小于10万台,全年耗电约3.5亿千瓦时——电是重要因素。
  • 服务器达到50万台,全年耗电约17.5亿千瓦时——电是主要成本。
  • 服务器跨越100万台,全年耗电约35亿千瓦时——电是Top1成本!

这个数据表明,当运营一个海量数据中心时,你会发现将作为运营成本之一的电费,将是一个非常庞大的数字,正是因为这个庞大的数字,你会被管理层给“盯上”。所以,精细化运营的一个重点就是要考虑在保证数据中心有效安全稳定运行的情况下,如何节能降耗,从而有效降低电费,控制运营成本,就成了精细化运营的一个重点。(具体节能措施不在此处详述)

其次,基础架构建设可靠性级别再高的数据中心,也不能保证不出任何问题。一方面产品量问题、施工质量问题,甚至人为操作的问题,都很可能影响数据中心的连续性。所以说,如何做好业务可靠性、连续性保障,如何引导业务在自身架构层面做好架构冗余,而不是把安全可靠运行的宝全部压在数据中心基础架构的可靠性上。如何把一个低建设可靠性的数据中心,通过后期运营管理为一个高可靠性的数据中心,以实现业务的快速部署,快速腾挪,跨区冗余,快速调度,才是精细化运营的精彩所在。(具体措施见仁见智,不在此处详述)

【结束语】

互联网数据中心海量运营之路刚起步,路漫漫。。。前路有困难、有挑战、有挫折,但相信经过大家一起努力之后,更有阳光、快乐和成长!


CSDN开设了微信开发者社区供企业共同探讨、借鉴其他行业优秀的应用开发案例,为开发者带来一线“吃螃蟹”的经验得失。另外,企业/用户还可以借助微信项目对接平台,发布微信开发需求、寻找微信开发项目。

转自:腾讯大讲堂

Android控件TextProgressBar进度条上显文字 Android内存管理-SoftReference的使用 反射在Android开发中的利弊 intent调用代码总结二 Android缩略图类源代码 Android多人项目开发指导 AsyncTask对比Thread加Handler Android Drawable叠加处理方法 android.os.Debug调试工具使用方法 Android多点触控开发原理 inent调用代码总结,不断完善中 onRetainNonConfigurationInstance和getLastNonConfigurationInstance Android中String资源文件的format方法 Android工程内嵌资源文件的两种方法 Android AIDL全攻略三 - AIDL框架 Android AIDL全攻略二 - Service绑定 自定义Android主题风格theme.xml方法 Android开发之模拟按下Home键的效果 Android AIDL全攻略一 Android Picture和PictureDrawable的用处 Android自定义View以及layout属性全攻略 Android通过Intent发送电子邮件含附件 Android调试技巧之Eclipse行号和Logcat Android Txt文本读写类源代码 Android游戏开发之旅20 双按事件捕获 Android游戏开发之旅19 分辨率大全 保护你的Android付费软件-LVL全攻略(二) 保护你的Android付费软件-LVL全攻略 android调试工具monkey压力测试实战 Android开发工具-App Inventor Android游戏开发之旅18 SoundPool类 html页面上的透明传输 如何得到winxp中的拨号上网密码 OpenGL与内存设备环境 如何在windows2000下安装apache服务器? 请问谁能帮我把linux里网卡芯片w89c940的驱动源程序提取出来?? html页面上的透明传输 C# webform的简单问题,如何关闭窗口 新手上路,Jb8的小问题 100分求购 经常看到说ADO很好的帖子,但是还是有一些疑惑,望高手赐教 用VC编写NetDDE程序,怎样设定客户程序连接服务器时的密码? 怪问题,请大虾帮忙!!!! 请问要学习数据库系统设计应该看那些资料? 急:高分求助关于jdbc连接MySQL数据库的问题. 如何用javascript来检测机器上是否安装word2000?请给点代码提示,先谢谢了 在本地机器上测试邮件发送 使用treeview数据库绑定,能不能绑到一个子节点下? 关于给目录树的子菜单再增加下层菜单的问题 要访问mysql数据库中排列在最前面的5条数据,怎么班? 高分征求 SQL SERVER 数据库的冗余、负载均衡的解决方案? 无法从硬盘安装Redhat9,大家帮帮我 Delphi7中安装上自己编写的控件后出现的问题??? 求助 100分深情大奉送!! 请教各位高手帮忙是关于EOT的??? 到底怎么用存储过程?是不是在查询分析器中使用? 到底怎么用存储过程?是不是在查询分析器中使用? 串口问题!!! behavior:url(#default#userData)的问题!马上给分。 如何得到所有用户表的表名?(在线等候) 怎么让打开的EXCEL文档自动到某一工作表?? 如何分别取得字符串中空格前和空格后的数据呢?如‘dfds df fds'分为dfds df fds. 谁知道MSWord的文件格式? 怎样给自定义函数设置多个参数项? 在URL地址栏中传递字符串参数遇到的一个问题??? 如何在繁體下打開簡體文件名的文件?要求不能用改名的辦法 插入数据到数据库! 高手关注--------送分-----------急急急! 在ASP中如何编程建立索引服务的编录及目录? 在web server application把MEMO字段中带格式(RTF)的内容转换成纯文本? 请问在身份验证中,能否有两个login.aspx??? 急~那篇给vb控件打包文件添加数字签名以便浏览器浏览的那篇文章在哪里? 用vb如何实现模拟雷达界面??欢迎赐教! 如何用CSS控制INPUT的输入外观不是立体的,而看起来是平板的样子,只有一个边线? 用户注册的问题,密码总验证不对,能不能看看错在哪里? 如何使文本框只显示下面的边框? xsl求助~~~ 怎么将int转为CString 有的论坛采用从数据库得到帖子,有的使用shtml,有的使用xml,孰优???还有其他吗? 100分==在JSP中打开word文件的实例 紧急在线等一个很简单的问题 DTPicker 怎样和数据库绑定? 如图所示,AD是△ABC的中线,过C,B分别作AD及AD延长线的垂线CF,BE,垂足分别为F,E.求证:BE=CF. 最后一句话是“娇艳的玫瑰上,一闪一闪的,是晶莹的水滴.” 这篇文章的题目是'棉袄与玫瑰最后一句话是“娇艳的玫瑰上,一闪一闪的,是晶莹的水滴.” 这篇文章的题目是'棉袄与玫瑰 1.已知a-1/a=3,那么a^2+1/a^2=________.2.不改变分式的值,使分式的分子 分母中各项系数都为整数,0.2x-0.012/-x-0.05=_______3.已知关于x的方程x+m/m(x-1)=- 4/5的解为x=-1/5,则m=______4.若(x-3)^0-2(3x-6)^-2有意义,那么 在△ABC中,AD为△ABC的中线,DG为AD的延长线,BE⊥AD,CF⊥AG,垂足分别为E,F.求证:BE=cf tanα/2=m,则sinα= cosα= 怎样画出一个角的平分线 ad是△abc的中线,过c、b分别作ad及ad的延长线的垂线cf、be,垂足分别为f、e.求证:be=cf. 若a^2+a+1=0 求a^2+a^8+a^9+2009的值 怎样用角尺画出角的平分线? 已知三角形两边长分别为10和4,那么第三边上的中线长m的取值范围是? 如图,△ABC中,AD是角平分线,G为BC的中点,GE平行AD交CA的延长线于E,交AB于F;求证:BF=CE 数学小几何...证明题.. 如图,已知GD//HE,且∠1=∠2,试说明AF//BC 已知三角形的两边分别长10和4,那么第三边上的中线长a的取值范围是?拜托了各位 谢谢 1、 A、B两地距离是S,甲乙两人同时从A地步行到B地,甲速度一直是v,而乙走前一半路程与甲的速度之比为3:4,走后一半路程与甲的速度之比为4:3那么____________先到B地,甲乙两人走完的时间比是___ 角的平分线上的点到角两边距离相等,请求讲解 金星小叶檀手串盘玩一段时间后金星少了是怎么回事 白鹅课文的写作特点 已知集合A={x|x^2-4mx+2m+6=0}集合B={x|x 1.约翰和妻子珍妮的家庭生活状况如何?2.找出文中描写 自然环境的语句,并说说自然环境的描写在文中的作用3.品析下面句中加点词语的表达效果.(老人的目光落到珍妮缀着补丁的围裙上,神 仿写白鹅的作文 爱心的作文 200子 2小时 谁知道这个阅读短文的题目,“我和我的妻子珍妮抛下我们自己的诊所...”描写这个医生外出出诊时,去时因为道路不熟悉,农民给他开灯,回来时遭遇大雪,农民的灯依然为他打开,反正就是说“ 白鹅这篇课文的简介 一篇描写爱的作文 200多 跟老师,同学,父母,长辈等,的爱 .一篇200多的作文 以(珍妮)命名一个店铺名字(必须带珍妮2个字哦)淘宝店铺 卖鞋子的~ 白鹅 课文中白鹅昂首大叫写的是白鹅的什么? 导师说,理论上能上,导师回邮件,理论上能上?怎么办呢====地理学 珍妮看到了蝴蝶(把“这天、彩色的、不少的”放在句子中合适的位置,使句子更具体) 八年级生物题,我实在看不懂,帮忙看一下吧!谢谢啦!题目:某种雌雄异体的植物有宽叶和狭叶两种类型.宽叶由显性基因B控制,狭叶由隐性基因b控制,B和b均位于X染色体上.基因b使雄配子致死.请 小学语文课本白鹅课文的好词 Jenny_ _填什么珍妮画得非常好 如何用三角尺画出一个50°的角 一个圆内两根弦AB、CD相交于点O,求证三角形AOD相似于三角形BOC. 高一数学求解答 问一题高中生物遗传图解的题目D为什么是错的C怎么算谢谢了 在面积为2的平行四边形ABCD中,点E,F,G,H,分别是AB,BC,CD,DA的中点,连接AF,BG,CH,DE得到的是平行四边形MNPQ,求它的面积.要画图.鸡鸡鸡鸡鸡鸡! 1.已知集合A是方程ax²+bx+1=0的解集.1.若A={-1.1},求a,b的值.(2)若A={1},求a,b的值、 2.已知集合A={x丨x-a=0},B={ax-1=0},若A含于B,求a的值.(2)若B含与A,求a的值. 小学四年级语文上册14课课文的段末说白鹅“可要大吃一惊”了,这是为什么? 已知AT为三角形ABC的内角平分线,M为BC的中点,ME平行AB于D,交CA的延长线于E,求证:BD=CE要不然睡不了觉了 如图,已知正方形ABCD的对角线交于点O,E是OA上一点,CF⊥BE于点F,CF交OB于G.求证:OE=OG. 童年梦境的作文童年梦境的作文 600字 △ABC中,M为BC中点,AT平分角BACME∥AT,交CA的延长线于E求证:BD=CE 如图,在正方形ABCD的边BC的延长线上取一点H,使CH=CE,联结DH交BE的延长线于点G,证明DH=BE,DH⊥BG 画出最大的圆 已知三角形三边分别是m,m-1,m+1,求m的取值范围 高数∫x^(-1) dx = x * x^(-1)+ ∫x dx = 1 +∫x^(-1) dx 然后移过来1=0这是怎么回事? 童年梦境的作文! 已知AT为三角形ABC的内角平分线,M为BC的中点,ME平行AT交AB于D,交CA的延长线于E,求证:BD=CE 在直角三角形ABC中,角c=90°,角A 以“童年梦境”为题写一篇作文[初一]急!要求:1、充分发挥自己的想象 2、运用描写的表达方式3、字数在600字以上[好的可以追加分的,最好多一点,越快越好] 白鹅这篇文章从几个方面写白鹅? 若|a|=2,|b|=1,则a-b的值是多少同上 作文:童年梦境 600字 急用 已知三角形三边长风别是m,m-1,m+1,求m的取值范围 警犬都是出自哪里分什么种类,请详细说明,以及各种犬的介绍 如图,点C、D线段AB上,△PCD等边三角形,且△APP∽△PDB,求角APB的度数 如图 已知AD为三角形ABC的中线,且CF垂直于AD于点F,BE垂直AD,交AD的延长线于E,求证,BE=CF |a|=8,|b|二2,且|a一b|=b一a,求a和b的值. 某商场出售洗衣机上午出售总数的一半多20台下午售出剩下的一半少20台结果还剩105台该商场原来有多少台? 朴槿惠11月发表施政演说 是否提国情中国留学生勇救日本小学生 安倍将为其澳大利亚使馆被指替美监听亚洲 北京河印度一大客车凌晨起火爆炸 造成睡梦中纽约遭飓风袭击一周年 数千灾民仍无家德国新政府计划提高国民养老金 涨幅可德媒曝光美国全球监控地图 中国北京上土耳其欧亚海底铁路隧道仅运营第一天突德国380公斤女子出门就医 消防队出泰国国会再开赦免法案审议 国内政治博日本一母亲遭高中生儿子殴打数小时后离澳大利亚3岁男童被自家宠物狗咬伤后不中国全票当选联合国经社理事会成员 任全球首条欧亚海底铁路隧道通车 造价4日本超强吉祥物“船小梨”:虽无名分仍挪威政府鼓励已婚夫妇每周约会一次 以“光棍节”将至 美亚裔“脱光派对”吸福布斯评普京最具全球影响力 奥巴马退39岁主妇西村真弓当选第4届日本“美Facebook第三季度创收20亿美美国一男子好运连连 才中千万美金又中成都彭山恒大酒店康体中心即将盛大开幕社区大篷车银行卡进入“芯”时代2015年磁条卡杨幂刘恺威 祝华西都市报20岁生日快图文:开国将军江鸿海同志逝世灾区群众可免费办理临时身份证康定灾区将全面开展房屋和基础设施评估机动车伪装成“残疾人专用车”被查服务从“头”开始 小剪刀剪出大爱血管软黄金,留住血管健康的“黄金时代银行降息 房贷70万少还近4万安利纽崔莱80岁回馈社会以职业规制消减“禽兽教师”概率昆仑山见证APEC巅峰时刻泸州将打造名家大师 重推特色文化品牌四川:挖掘机铲砂发现2枚炮弹 或为红2014年11月25日李宗伟林丹将对决表演赛全国首个创新型生猪价格指数保险落户邛成南高速入城段施工两条匝道封闭15天任志强退休 最后一炮“房价不会降”
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘