说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

浅谈互联网数据中心海量运营之道

HTML文档下载 WORD文档下载 PDF文档下载
随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?

【编者按】互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,承载的业务也呈现海量增长模式。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?除了建立完善的运营体系,其思路和方法同样很重要。本文节选自腾讯大讲堂,文中详细阐述了如何做好自动化运营、计划性运营、做好精细化运营、预防性维护和应急演练以及做好外包管理、和人员培养的解决之道。


随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。以腾讯为例,其拥有即时通信活跃账户8.08亿个,最高同时在线1.8亿个;微信/WeChat合并月活跃帐户数达到3.55亿个;QQ空间月活跃帐户数达到6.25亿个;每日发送通信消息超过180亿条;每日上传图片3.60亿张。


面对如此海量的用户和业务,我们的数据中心运营又未尝不是海量的,如下数据应该能够有所说明:

  • MonthlyDeliver server 10,000+;
  • Monthlyreboot request 4,000+;
  • Monthlymigration request 2,000+;
  • MonthlyOS re-installation 2,000+;
  • MonthlyHardware replacement 500+;
  • MonthlyHard-drive replacement 800+;

面对如此海量的设备和需求,我们应该采取什么样的方式,才能保障数据中心的安全、高效、稳定的运营呢?其实,这样的问题一直以来都存在,需要考虑的点、线、面也很多,每个运营管理者都会有很多的想法和措施。对于互联网公司而言,面对海量数据的挑战,一定要建立完善的运营管理体系。但今天,我们不谈体系,而是关于如何做好互联网数据中心海量运营的思路和方法,就个人的体会,做一些散谈。(当然,如有不妥之处还请包涵。)

个人认为,在满足业务高速发展时,大规模数据中心的海量运营过程中必然存在诸多的问题和挑战,那是否我们需要针对所有的问题和挑战,都制定详细的解决方案去快速应对呢?我想大家的回答应该都是否定的。确实,我们要想快速有效的提高海量运营的水平,一定要找准制约我们做好海量运营保障的主要矛盾,排出优先级,有针对性的把关键的几个点先解决好。个人目前所关注的做好数据中心海量运营的五大道法是:做好计划性运营、做好自动化运营、做好外包管理和人员培养、做好预防性维护和应急演练、做好精细化运营。下面逐一介绍一下:

道法之一,做好计划性运营。


如前所说,互联网业务发展快、变化快、需求多样,一味的保姆式服务是无法满足海量业务的需求的。这样就要求:一方面,运营团队需要梳理清楚自身的工作目录和量化自身的服务能力,形成标准清晰的服务目录。主动管理用户和老板的预期,建立服务支撑模型和基线。另一方面,需要主动地和用户沟通,了解用户的真实需求和业务发展计划,匹配自身的服务目录和能力基线,与用户就需求进行明确、清晰的定义和分级。对于海量通用的一般级别需求,就提供简单的周期性、计划性的标准化运维服务(如一个数据中心的硬盘,只在每周固定时间进行批量更换),只是针对个别重要需求才提供高效可靠的个性化实时保障服务。这样一方面可以推动业务在架构层面做好冗余优化,尽可能的选择通过一般级别的通用标准服务来满足需求。另一方面,也可以有效的减少一味高效可靠服务所带来的高运营成本。有效的做好SO运营模式,一方面能够让运营团队提前了解数据中心面临的业务需求和压力,推动在业务层面就做好风险管理,另一方面,只有做好SO运营,才能让运营团队在海量运营中轻松应对,保障平稳运行。

道法之二,做好自动化运营。


在我们把运营的操作、流程规范化、标准化以后,是否操作人员只要严格按照规范、流程操作就可以把运营工作做好呢?在我们把一些设施设备的运行情况做了监控,能够上报报警信息就可以确保及时、准确的发现问题了吗?当然不是,面对海量的运营需求和事件,单靠人工去按规范、标准是肯定无法有效支撑和保障海量运营的。同样,如果我们的报警信息不做精细化的梳理和收敛,海量的故障信息报上来,运营人员是无法快速、准确定位的。所以说,首先,需要有一支懂得数据中心一线运营流程和基本操作的开发团队。其次,由这支开发团队,开发出相对强大的自动化运营管理平台,通过平台与各个自动化系统和工具进行关联,把运营管理的流程、标准、规范都自然、顺畅的融合到自动化系统中。通过自动化平台,除了帮助数据中心运营管理人员快速、高效的发现和解决问题,还要让运营人员通过自动化平台去快速、准确、高效的做好容量管理、资产管理、风险管理,外包管理等等一系列的数据中心运营管理工作。我们的监控系统,除了精确发现故障、上报故障外,还可以考虑结合业务特性和布局,通过系统工具实现故障的自动修复,提高设备系统的自愈能力。把一线的运营人员,从简单、重复性、例行化的工作中解放出来,让他们能够有更多的精力专注在对数据中心属地的整体运营优化管理工作中,提升数据中心的整体可靠性、运营服务的质量和效率、有效控制能耗和运营成本。

道法之三,做好外包管理和人员培养。


在国内,数据中心行业正在蓬勃发展,但其中专业的数据中心运营人才匮乏,如何培养和留住数据中心专业运营人员,是非常重要的一项工作。客观的说,运营团队一般都会面临压力大、成就感不强、稳定性不好等几个问题,而造成这种局面的主要因素来源于数据中心运营的工作特性——7*24的工作强度、工作内容的重复性、随时可能出现的风险故障,以及如何快速应急的压力。对于运营团队面临的挑战和问题,其中做好技能识别,引入外包资源,平台搭建是一个解决方案。

通过对运营工作及运营人员知识结构的分析,可以考虑引入外包资源,参与一线运营工作。外包的管理工作分两块:一块是,设施设备外包给专业的维保单位来执行。对于专业的数据中心设施设备,用户不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,必须通过专业厂家来执行。用户聚焦在这部分外包维护的计划、执行监管和优化方面。另一块是,把重复性、例行化的标准操作层面的工作,外包给专业的服务提供商来完成,如:巡检、直配、上架、硬件更换等等基础性的操作工作。用户主要聚焦在做好例行工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核方面。而另一部分,技术要求高且需要充分经验支持的优化和风险控制的工作由自有团队中有一定经验的人员来完成。通过技能识别和外包引入,员工的技能和职责匹配度更高,更有利于管理好岗位预期,一定程度上可以缓解运营团队的压力。

除此之外,为运营团队搭建一个知识学习和分享提升的平台也非常重要,为运营人员建立明确的职业发展通道和发展计划,通过各种形式的对内对外技术培训和分享交流等途径来逐渐提升一线运营人员自身的竞争力和行业影响力,帮助运营团队提高岗位认同感和职业成就感。

道法之四,做好预防性维护和应急演练。

对于数据中心预防性维护通常考虑的一个重点就是基础设施部分,基础设施的故障往往对数据中心的稳定运营带来较为严重的影响。一般数据中心基础设施的故障中,70%属电力方面的原因,20%属空调制冷的原因,10%属于光纤铜缆等其他设施的原因。整体而言,前期的产品质量、施工工艺和后期的设施维保工作不到位是造成数据中心出现问题的主要原因。那么如何应对这些故障隐患呢?没有他法,在交付阶段一定要重视机房测试验收的过程。通过假负载测试,一方面帮助验证确保机房各设施、系统的施工质量及系统功能符合要求。另一方面通过模拟可能的故障场景以验证相关系统群控逻辑符合要求,同时获取更多一手数据和验证应急预案的基本可行性。在运营阶段,除了严格做好厂家维护保养工作之外,运营团队日常对高危设施设备有效的预防性巡检工作也非常关键,比如用热成像仪对高危设施设备进行检查可以有效提前发现潜在的故障风险。

另外,每个月1-2次的应急预案实操演练,包括多场景、多系统设施联动的应急预案的处理是否被有效的理解和熟悉,这些都应该在日常运营工作中被重视起来。因为,对于数据中心来说,某个专业系统的设施故障,往往都会联动影响到其他领域的系统出现异常。如:配电系统故障断电,往往也会影响空调系统运行,影响末端制冷,形成高温。那么此时,配电系统应急预案和空调系统的应急预案是需要联动起来同时执行,如果平时的演练不到位,在这样的突发情况下,很难有效从容应对。

除此之外,在制定应急预案和应急演练中还有一块是容易被忽视的,那就是与业务的联动。互联网行业统一产品会提供不同的应用,在基础架构侧出现故障时,如何有效做到业务的“柔性可用”。这就要求数据中心的运营侧要非常了解属地承载的业务特性和重要性分级,明确突发情况下的优先保障机制和不同应用取舍。只有制定匹配业务特性的应急预案,并通过定期的与业务联动的多场景应急演练,确保在出现故障时能够快速有效的确保重点业务或重要应用的连续运行,最终做到统一产品在不同应用上的柔性可用,确保对用户影响的最小化。


道法之五,做好精细化运营。

这一部分,我们重点从两个方面来看,一个是能耗、成本,一个是业务可靠性。首先,我们看看下面的数据:

  • 服务器小于1 万台,全年耗电约0.35 亿千瓦时——电是次要因素。
  • 服务器小于10万台,全年耗电约3.5亿千瓦时——电是重要因素。
  • 服务器达到50万台,全年耗电约17.5亿千瓦时——电是主要成本。
  • 服务器跨越100万台,全年耗电约35亿千瓦时——电是Top1成本!

这个数据表明,当运营一个海量数据中心时,你会发现将作为运营成本之一的电费,将是一个非常庞大的数字,正是因为这个庞大的数字,你会被管理层给“盯上”。所以,精细化运营的一个重点就是要考虑在保证数据中心有效安全稳定运行的情况下,如何节能降耗,从而有效降低电费,控制运营成本,就成了精细化运营的一个重点。(具体节能措施不在此处详述)

其次,基础架构建设可靠性级别再高的数据中心,也不能保证不出任何问题。一方面产品量问题、施工质量问题,甚至人为操作的问题,都很可能影响数据中心的连续性。所以说,如何做好业务可靠性、连续性保障,如何引导业务在自身架构层面做好架构冗余,而不是把安全可靠运行的宝全部压在数据中心基础架构的可靠性上。如何把一个低建设可靠性的数据中心,通过后期运营管理为一个高可靠性的数据中心,以实现业务的快速部署,快速腾挪,跨区冗余,快速调度,才是精细化运营的精彩所在。(具体措施见仁见智,不在此处详述)

【结束语】

互联网数据中心海量运营之路刚起步,路漫漫。。。前路有困难、有挑战、有挫折,但相信经过大家一起努力之后,更有阳光、快乐和成长!


CSDN开设了微信开发者社区供企业共同探讨、借鉴其他行业优秀的应用开发案例,为开发者带来一线“吃螃蟹”的经验得失。另外,企业/用户还可以借助微信项目对接平台,发布微信开发需求、寻找微信开发项目。

转自:腾讯大讲堂

重度使用AWS及Hadoop,Pinterest的自服务平台打造历程 《近匠》腾讯信鸽:基于大数据的推送 超低功耗'Whisper'架构发布:IoT、可穿戴连接性IP新标准! R的数据分析制霸以及企业级应用盘点 第二届游戏运营技术论坛来袭!与大牛共论云时代的游戏运营之道 云雀科技:飞行器+地图,展望飞行器的新体验 Sandstorm,前Googler和极客名人建立通用开源工具保姆 触控科技CEO陈昊芝:引擎技术推动行业升级 谁能成为Hero,这一次你说了算!——TCL智能电视开发大赛创意阶段评审征集 微信官方在“公开课”上13个热点问题的解答摘要 MDCC 2014移动开发者大会10月开幕:你就是主角! 设计师该如何挣得一席之地? 回到未来:最热门的十大清洁能源技术公司 深度学习:未来机器人的进化途径 搜狗开源内部项目管理系统Cynthia,已被数十家企业采用 沃游戏新版本全新登场 好友PK根本停不下来 腾讯发布首款智能硬件,内部筹建孵化器鼓励创新 触控开发者平台:孕育“十亿开发者俱乐部” 《近匠》大新伙伴:大姨吗防晒小助手,帮你呵护女神 专访阿里云总裁王文斌:做出“用得爽”的工程产品 专访AMD全球副总裁潘晓明:2014全线发力,力争中国市场 搜狗开源内部项目管理平台Cynthia意欲何为? 深度解析浪潮新八路服务器TS860 支持Box2D,开源HTML5 2D游戏引擎FLAG 一周消息树:从程序员到架构师的方法与逻辑 【CTO俱乐部走进海尔】海尔的转型探索之路 十一问MongoDB CTO,谈NoSQL人气王的扩展、事务及运维 腾讯“创业•密码”开发者论坛 ChinaJoy引爆创业者关注 从F1赛车到智能手机,无线充电技术之崛起 助力梦想!MDCC免费为优秀App开发团队提供展位 为Symfony2和Redis正名,基于PHP的10亿请求/周网站打造 两层还是三层? 请问数组如何快速合并 VFP60自动报表生成程序 help,急急急!!! 请指教:如何使vb6.0生成的安装程序在安装完成时自动执行一个.exe程序? 好了,撤了,散分!欢迎CSDN留下111222(分不多,请大家笑纳)! 请教一个笨问题!请帮帮我! ==========诸位兄台,如何获得一个字附的点阵数,象“A”的点阵数是XX(我也不知道)========== ms6163 可以支持奔3吗? 女孩为什么穿短裙?大家快来看 找注册码,我下载了一个叫AVPhone的东西,有没有哪位大哥有注册码??? 42分,如何在VC中建立象vb中的控件数组 实习要搞数据库开发,可我只学过foxpro2.5~~~,现在想用vfp,能不能推荐一本好的,谢谢 在DELPHI中如何控制DOS命令语句的运行顺序? 请问:网站发手机短信息的技术解决方案,请详细说明一下! 为什么JBuilder5中没有Component Palette ,即能够产生各种控件的页.象jb3那样.有swing,swingcontainers,dataexpress..... 为什么我不能给分? 如何实现网络定时传输文件??? 完了,完了,我彻底完蛋了! 我从网上下载的*.bin文件的电影怎么播放? 考水平考试的朋友请过来看。 刚收到111222的信~~~难过~~~我会想念他的~~~你们是不是也会~~~ 我的硬盘为何这样!help!! 考水平考试的朋友过来看看 我要毕业啊 ===============想知道111222去向的朋友,看这(独家披漏)===================== 以下SQL语言如何写? 111222走了~~送分~~~心里不好受~~~ 111222真的走了~~~~~~~~~~~ JBuilder中用MYSQL数据库,用中文进行条件查询时,查不出任和数据? ASM 菜鸟问题,请大家帮忙!谢谢 解释一下好了吗? ============答对我的问题者,将可获得111222的签名照片!!!!!!!!=========== 关于图片的上传 ======== 绝对好消息,activereport2.0已经release 了,cracker们出动啊~~~~~加油 ============= 关于什么才是真正的系统分析和系统分析员的讨论!——欢迎大家参加,进行善意地讨论!^&^ 今晚的球赛什么时候开始啊? 哪里有关于水平考试(高程)的模拟题的啊??? 为什麽还是不能显示中文呢? 怎样获取WIN2000的密码 在父窗体怎样画jpg格式的背景图? 如何注册MSComm控件????????? 如何解决这个问题啊?重赏啊!!!! 公告: 从现在开始封shines 111222 :)流芳斑主,结贴的工作要开始了,会很累啊!我代表大家先谢谢你了! 怎样改变MSHflexgrid中每条记录的背景颜色。急急急急急急急 各位,能不能给我讲一下“句柄”是怎么一回事? 唉,心情不爽 关于C++语法的问题? 灌水-----大学时的恶作剧(转载) "setdibs()"是什么来着,请指教,谢谢! 最好用方程2009年12月26日武广高铁正式开通运营,预计高速列车在武汉.广州间单程运行时间为3小时.12月10日试车时,试验列车由武汉到广州的行驶时间比预计多用了18分钟,由广州返回武汉的时 3/4:x=5/6 解方程 6.3÷x=7的方程的解的检验. 3x=x+3 (x=2,x=三分之二)检验下列各题括号里的数是不是它前面方程的解 若方程解方程:│x-5│=2的解也是关于x的方程4x+m=5x+1的解,求m²-4m+4的值要步骤 2(X-2、6)=8,求解和检验,是方程 已知方程3x-4=8(x=3,x=4),检验括号里面的哪一个数是方程的解 因式法解下列方程:(1)(x+1)的平方-25=0 (2)2(x+1)的平方=x+1 (3)5x的平方-4x=0 (4) (4x-1)(5x+7)=0 x={2,4,5,6,8},y={30,40,55,70,80},求线性回归方程 “请依据方程解的定义,检验括号里x的数值是否为方程的解.”(写出简要过程) (1)0.2x=0.8x-7.8(x=-13,x=13,x=12) a为何值时,方程3(5x-6)=3-20x的解也是方程a-三分之十x=2a+10x的解 5x+8(8-x)=55 直接写出来. 检验下列各题括号里的数是不是它前面方程的解.(1)2分之1x-4=3x+6(x=4,x=-4)检验下列各题括号里的数是不是它前面方程的解.(1)2分之1x-4=3x+6(x=4,x=-4)(2)x·(x-1)=2x+4(x=4,x=0,x=-1) 为何值时,方程3(5x-6)=3-20x的解也是方程a-3分之10x=2a+10x的解?怎么解跪为何值时,方程3(5x-6)=3-20x的解也是方程a-3分之10x=2a+10x的解? 5(x-3)=55解方程并写出检验 检验下列各题括号中的数是不是方程的解 3x-1=2x+1(x=2,x=4) a为何值时,方程3(5x-6)=3-20x的解也是方程a-3/10x=2a+10x的解?【要有过程】a为何值时,方程3(5x-6)=3-20x的解也是方程a-3/10x=2a+10x的解?【要有过程】 解下列方程,加检验.x+0.3=1.8 3+x=5.4 x-1.5=4 x解下列方程,加检验.x+0.3=1.8 3+x=5.4 x-1.5=4 x-6=7.6 检验括号里的数是不是方程的解:2x=10-3x(x=0x=2x=3) 2-1/3x=3 利用等式的性质解这个方程并检验(要过程!) 2(8+x)=20怎么写方程并检验 检验下面大括号内所列各数是否为相应方程的解:3x-7(x+1)=3-2(x+3) {3,-2} 利用等式的性质解下列方程并检验;x-5=6;0.3x=45 (1+x%)*1260+1827 30%x-20%x+x-1.8 方程:根号下x^2-3x-10=x-18的解集 利用等式的性质解下列方程并检验,2-3X=2X+1 3.5/(8+20)=x/12这个方程怎么解? 解根号方程 3x+根号(x^2-3x)+2=x^2 2-4分之3x=4利用等式是性质解下列方程,并检验 求检查初中数学题.方程的. 再来一题!解根式方程哟亲们~ 根号(3x+1)=根号(x+4)+1 (1)9=x-5 (2)1/3x+4=-5+21/3x用等式的性质解下列方程并检验. 求检查初中数学方程计算题. 求解方程(x^2-x+1)/(x^2-2x+1)=根号(x^2-x+1)+根号(3x^2-3x+1) 第二题 解方程 标准检测卷观察下面三行数:-3,9,-27,81,-243,729……0,12,-24,84,-240,732……-1,3,-9,27,-81,243……问:第1行与第2行第3行有什么关系?并取每行数的第十个数,计算这三个数的和. 关于方程的数学题~!帮帮忙~需过程,谢谢.已知关于x的方程(1)求证无论k取任何实数值,方程总有实数根;(2)若等腰三角形ABC的一边长a=1,另两边长b,c恰好是这个方程的两个根,求三角形ABC的 检验下括号里是否是方程的解.【1】2x-1=1/2x-4{x=-2,x=-1/2}【2】1/2x=2/3x+2{x=12,x=-12} 第二题解方程 一道数学题,要方程,必须要有过程小朵身上的钱是小红的4倍,如果小朵给小红60元,两人的钱相等.两人原来有多少钱 分数5分之29的分子和分母加上M以后,分子与分母的比是19:7,求M是多少? 第二题.解方程什么的都可以. 一道要方程的过程的数学题一种石英表,先涨价十分之一,然后降价十分之一,这是售价49.5元,原价多少元? 分数5分之29,分子、分母加上M后,分子与分母的比是19:7,M是多少? 1,2题,用方程式写 用方程甲,乙两人分别从相距600米的两地同时出发,若相向而行,则经过3又3/4分钟相遇,若同向而行,则乙用18又3/4分钟可追上甲,求甲, 分数为二十九分之五,分子,分母加上m以后,分子与分母的比为19:7,求m是多少? (1)(2)题怎么做 用方程 需方程解某人工作一年的报酬是一件衣服个7块钱,但他干满7个月就不干了,他得到一件衣服和2块钱,问:衣服值几块钱? 一个分数29/5的分子、分母加上m,约分后得到一个新分数19/7,求m. 列方程,并求出方程的解.(1)17加上一个数的3倍,和是59,求这个数.(2)一个数的8倍减去128,差是56,求这个数.(3)900比一个数的6倍多120,求这个数.要详细列出方程 有一直立杆,它的上部被风吹折,杆顶着地处离杆脚20dm,修好后又被风吹折,因新断处比前次低5dm,故杆顶着地处比前次远10dm,求此杆的高度. 分数29/5,分子加上M后,分子和分母的比是19:7,求M的值. 方程的检验过程是什么方程3.6+X=10.6的检验过程是什么急.. 数学题需解设方程1.有一群鸽子和一些鸽笼,如果每个鸽笼住6只鸽子,则剩余3只鸽子无鸽笼可住;如果再飞来5只鸽子,连同原来的鸽子,每个鸽笼刚好住8只鸽子.原有多少只鸽子和多少个鸽笼? 分数29分之5的分子和分母都加上a以后,分子与分母的比是7:19.求a是多少? 怎么验检方程?列方程加你检验的过程 一道数学题,用方程 分数5分之29,分母与分子都加上A以后,分母与分子的比为7:19,那么A是多少 列方程检验
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn