说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

浅谈互联网数据中心海量运营之道

HTML文档下载 WORD文档下载 PDF文档下载
随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?

【编者按】互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,承载的业务也呈现海量增长模式。面对如此海量的设备和需求,开发者应如何保障数据中心的安全、高效、稳定的运营呢?除了建立完善的运营体系,其思路和方法同样很重要。本文节选自腾讯大讲堂,文中详细阐述了如何做好自动化运营、计划性运营、做好精细化运营、预防性维护和应急演练以及做好外包管理、和人员培养的解决之道。


随着互联网业务的快速发展,其数据中心除了自身数量、规模体量在快速增长外,其承载的业务也是海量增长。以腾讯为例,其拥有即时通信活跃账户8.08亿个,最高同时在线1.8亿个;微信/WeChat合并月活跃帐户数达到3.55亿个;QQ空间月活跃帐户数达到6.25亿个;每日发送通信消息超过180亿条;每日上传图片3.60亿张。


面对如此海量的用户和业务,我们的数据中心运营又未尝不是海量的,如下数据应该能够有所说明:

  • MonthlyDeliver server 10,000+;
  • Monthlyreboot request 4,000+;
  • Monthlymigration request 2,000+;
  • MonthlyOS re-installation 2,000+;
  • MonthlyHardware replacement 500+;
  • MonthlyHard-drive replacement 800+;

面对如此海量的设备和需求,我们应该采取什么样的方式,才能保障数据中心的安全、高效、稳定的运营呢?其实,这样的问题一直以来都存在,需要考虑的点、线、面也很多,每个运营管理者都会有很多的想法和措施。对于互联网公司而言,面对海量数据的挑战,一定要建立完善的运营管理体系。但今天,我们不谈体系,而是关于如何做好互联网数据中心海量运营的思路和方法,就个人的体会,做一些散谈。(当然,如有不妥之处还请包涵。)

个人认为,在满足业务高速发展时,大规模数据中心的海量运营过程中必然存在诸多的问题和挑战,那是否我们需要针对所有的问题和挑战,都制定详细的解决方案去快速应对呢?我想大家的回答应该都是否定的。确实,我们要想快速有效的提高海量运营的水平,一定要找准制约我们做好海量运营保障的主要矛盾,排出优先级,有针对性的把关键的几个点先解决好。个人目前所关注的做好数据中心海量运营的五大道法是:做好计划性运营、做好自动化运营、做好外包管理和人员培养、做好预防性维护和应急演练、做好精细化运营。下面逐一介绍一下:

道法之一,做好计划性运营。


如前所说,互联网业务发展快、变化快、需求多样,一味的保姆式服务是无法满足海量业务的需求的。这样就要求:一方面,运营团队需要梳理清楚自身的工作目录和量化自身的服务能力,形成标准清晰的服务目录。主动管理用户和老板的预期,建立服务支撑模型和基线。另一方面,需要主动地和用户沟通,了解用户的真实需求和业务发展计划,匹配自身的服务目录和能力基线,与用户就需求进行明确、清晰的定义和分级。对于海量通用的一般级别需求,就提供简单的周期性、计划性的标准化运维服务(如一个数据中心的硬盘,只在每周固定时间进行批量更换),只是针对个别重要需求才提供高效可靠的个性化实时保障服务。这样一方面可以推动业务在架构层面做好冗余优化,尽可能的选择通过一般级别的通用标准服务来满足需求。另一方面,也可以有效的减少一味高效可靠服务所带来的高运营成本。有效的做好SO运营模式,一方面能够让运营团队提前了解数据中心面临的业务需求和压力,推动在业务层面就做好风险管理,另一方面,只有做好SO运营,才能让运营团队在海量运营中轻松应对,保障平稳运行。

道法之二,做好自动化运营。


在我们把运营的操作、流程规范化、标准化以后,是否操作人员只要严格按照规范、流程操作就可以把运营工作做好呢?在我们把一些设施设备的运行情况做了监控,能够上报报警信息就可以确保及时、准确的发现问题了吗?当然不是,面对海量的运营需求和事件,单靠人工去按规范、标准是肯定无法有效支撑和保障海量运营的。同样,如果我们的报警信息不做精细化的梳理和收敛,海量的故障信息报上来,运营人员是无法快速、准确定位的。所以说,首先,需要有一支懂得数据中心一线运营流程和基本操作的开发团队。其次,由这支开发团队,开发出相对强大的自动化运营管理平台,通过平台与各个自动化系统和工具进行关联,把运营管理的流程、标准、规范都自然、顺畅的融合到自动化系统中。通过自动化平台,除了帮助数据中心运营管理人员快速、高效的发现和解决问题,还要让运营人员通过自动化平台去快速、准确、高效的做好容量管理、资产管理、风险管理,外包管理等等一系列的数据中心运营管理工作。我们的监控系统,除了精确发现故障、上报故障外,还可以考虑结合业务特性和布局,通过系统工具实现故障的自动修复,提高设备系统的自愈能力。把一线的运营人员,从简单、重复性、例行化的工作中解放出来,让他们能够有更多的精力专注在对数据中心属地的整体运营优化管理工作中,提升数据中心的整体可靠性、运营服务的质量和效率、有效控制能耗和运营成本。

道法之三,做好外包管理和人员培养。


在国内,数据中心行业正在蓬勃发展,但其中专业的数据中心运营人才匮乏,如何培养和留住数据中心专业运营人员,是非常重要的一项工作。客观的说,运营团队一般都会面临压力大、成就感不强、稳定性不好等几个问题,而造成这种局面的主要因素来源于数据中心运营的工作特性——7*24的工作强度、工作内容的重复性、随时可能出现的风险故障,以及如何快速应急的压力。对于运营团队面临的挑战和问题,其中做好技能识别,引入外包资源,平台搭建是一个解决方案。

通过对运营工作及运营人员知识结构的分析,可以考虑引入外包资源,参与一线运营工作。外包的管理工作分两块:一块是,设施设备外包给专业的维保单位来执行。对于专业的数据中心设施设备,用户不太可能完全通过自身的技术人力来做好设施设备的维护保养工作,必须通过专业厂家来执行。用户聚焦在这部分外包维护的计划、执行监管和优化方面。另一块是,把重复性、例行化的标准操作层面的工作,外包给专业的服务提供商来完成,如:巡检、直配、上架、硬件更换等等基础性的操作工作。用户主要聚焦在做好例行工作的标准化制定、外包工作计划、运营任务管理、执行过程监管,以及外包人员的技能培养和外包商/人员评估考核方面。而另一部分,技术要求高且需要充分经验支持的优化和风险控制的工作由自有团队中有一定经验的人员来完成。通过技能识别和外包引入,员工的技能和职责匹配度更高,更有利于管理好岗位预期,一定程度上可以缓解运营团队的压力。

除此之外,为运营团队搭建一个知识学习和分享提升的平台也非常重要,为运营人员建立明确的职业发展通道和发展计划,通过各种形式的对内对外技术培训和分享交流等途径来逐渐提升一线运营人员自身的竞争力和行业影响力,帮助运营团队提高岗位认同感和职业成就感。

道法之四,做好预防性维护和应急演练。

对于数据中心预防性维护通常考虑的一个重点就是基础设施部分,基础设施的故障往往对数据中心的稳定运营带来较为严重的影响。一般数据中心基础设施的故障中,70%属电力方面的原因,20%属空调制冷的原因,10%属于光纤铜缆等其他设施的原因。整体而言,前期的产品质量、施工工艺和后期的设施维保工作不到位是造成数据中心出现问题的主要原因。那么如何应对这些故障隐患呢?没有他法,在交付阶段一定要重视机房测试验收的过程。通过假负载测试,一方面帮助验证确保机房各设施、系统的施工质量及系统功能符合要求。另一方面通过模拟可能的故障场景以验证相关系统群控逻辑符合要求,同时获取更多一手数据和验证应急预案的基本可行性。在运营阶段,除了严格做好厂家维护保养工作之外,运营团队日常对高危设施设备有效的预防性巡检工作也非常关键,比如用热成像仪对高危设施设备进行检查可以有效提前发现潜在的故障风险。

另外,每个月1-2次的应急预案实操演练,包括多场景、多系统设施联动的应急预案的处理是否被有效的理解和熟悉,这些都应该在日常运营工作中被重视起来。因为,对于数据中心来说,某个专业系统的设施故障,往往都会联动影响到其他领域的系统出现异常。如:配电系统故障断电,往往也会影响空调系统运行,影响末端制冷,形成高温。那么此时,配电系统应急预案和空调系统的应急预案是需要联动起来同时执行,如果平时的演练不到位,在这样的突发情况下,很难有效从容应对。

除此之外,在制定应急预案和应急演练中还有一块是容易被忽视的,那就是与业务的联动。互联网行业统一产品会提供不同的应用,在基础架构侧出现故障时,如何有效做到业务的“柔性可用”。这就要求数据中心的运营侧要非常了解属地承载的业务特性和重要性分级,明确突发情况下的优先保障机制和不同应用取舍。只有制定匹配业务特性的应急预案,并通过定期的与业务联动的多场景应急演练,确保在出现故障时能够快速有效的确保重点业务或重要应用的连续运行,最终做到统一产品在不同应用上的柔性可用,确保对用户影响的最小化。


道法之五,做好精细化运营。

这一部分,我们重点从两个方面来看,一个是能耗、成本,一个是业务可靠性。首先,我们看看下面的数据:

  • 服务器小于1 万台,全年耗电约0.35 亿千瓦时——电是次要因素。
  • 服务器小于10万台,全年耗电约3.5亿千瓦时——电是重要因素。
  • 服务器达到50万台,全年耗电约17.5亿千瓦时——电是主要成本。
  • 服务器跨越100万台,全年耗电约35亿千瓦时——电是Top1成本!

这个数据表明,当运营一个海量数据中心时,你会发现将作为运营成本之一的电费,将是一个非常庞大的数字,正是因为这个庞大的数字,你会被管理层给“盯上”。所以,精细化运营的一个重点就是要考虑在保证数据中心有效安全稳定运行的情况下,如何节能降耗,从而有效降低电费,控制运营成本,就成了精细化运营的一个重点。(具体节能措施不在此处详述)

其次,基础架构建设可靠性级别再高的数据中心,也不能保证不出任何问题。一方面产品量问题、施工质量问题,甚至人为操作的问题,都很可能影响数据中心的连续性。所以说,如何做好业务可靠性、连续性保障,如何引导业务在自身架构层面做好架构冗余,而不是把安全可靠运行的宝全部压在数据中心基础架构的可靠性上。如何把一个低建设可靠性的数据中心,通过后期运营管理为一个高可靠性的数据中心,以实现业务的快速部署,快速腾挪,跨区冗余,快速调度,才是精细化运营的精彩所在。(具体措施见仁见智,不在此处详述)

【结束语】

互联网数据中心海量运营之路刚起步,路漫漫。。。前路有困难、有挑战、有挫折,但相信经过大家一起努力之后,更有阳光、快乐和成长!


CSDN开设了微信开发者社区供企业共同探讨、借鉴其他行业优秀的应用开发案例,为开发者带来一线“吃螃蟹”的经验得失。另外,企业/用户还可以借助微信项目对接平台,发布微信开发需求、寻找微信开发项目。

转自:腾讯大讲堂

“第一届中国大数据技术创新与创业大赛”主办方发言及创新分赛颁奖 中国移动研究院业务支撑研究所所长孙少陵:大会及与会嘉宾介绍 中国工程院院士、大数据专家委员会主任李国杰:能挖掘出价值的数据就是好数据 阿里飞天平台总架构师唐洪:飞天开放平台 百度大数据首席架构师林仕鼎:新计算时代 金山发布全系列IaaS平台 Google无人驾驶汽车与机器人组合,秒杀无人机 Google欲推新Chrome应用:适用于Android、iOS平台 comScore:美国市场苹果手机独占鳌头 Android和iOS双寡头垄断 一周消息树:新技术实现远程触摸和操纵实物 创新人机交互 研发周报:帮助网站转换的六大黑色星期五规则 【开源专访】JFinal作者詹波:以极简方式实现Web项目的极速开发 2013中国智能交通与大数据技术峰会:迎接交通大数据新时代 大数据应用技术(上):加速创新,重塑世界 英特尔百度携手推出首个跨平台应用商店 12月9日:计算机软件第一夫人Grace Hopper出生 触摸屏将成笔记本标配 电脑行业或将迎来又一春 触摸4G,你必须要知道的那些事儿 TIOBE 2013年12月编程语言排行榜:Transact-SQL冲刺年度语言 敏捷开发的6个实战经验 【图文】走近华为企业业务与支撑万人技术团队的云数据中心 《习惯联盟》陈晓冬:与京东云合作让我们没有后顾之忧 流计算与批处理同现:畅享大数据时代的开源实践 挑战和机遇并存:大数据时代机器学习与可视化 【企业开源系列】收发一条Twitter推文的背后 在IE11中更快地获得您需要的内容 暴露程序员身份的8个行为 英特尔创新应用大赛大评审!创新也有中国风 苹果面临一问题:正源源不断地失去优秀工程师 初学编程者必知的五个网站 大数据基准测试专题论坛:基准测试是一把尚未完成的尺子 完善 SysTrayIcon 時踫到的一個問題,高手請進。 SCJP证书要多久才能收到! 高分求解 为什么我用resizeTo(screen.Width,screen.Height);会被windows的start bar挡住IE的状态条 关于在三层分布程序中,用ACTIVAX控件做前端,在分布时出的问题,急!!100分求救 请问powerdesigner9可以安装在window2000 professional下吗? 有一个word文件,怎样让文件在浏览器中打开word显示,而不是下载? 请问如何读取Microsoft Outlook 中地址簿的“附注”? sql2000的怪问题!究竟sql那里设的东西被改了? 请教modem编程的VC源码 VB.Net中,Form2是Form1的子窗口,Form2最大化时,能否不受Form1大小的限制,能实现真正的最大化 重金征求dephi+oracle的程序源码(400分) 再次说关于vb中调用dos程序问题! 有关DLL连接的问题,急急急! NT/2000系统级高手请进 像我这样的能找到工作吗? 靠!专家分正好1234,小概率事件,散分。 请问Delphi6中Servers页上控件的帮助文档在哪里可以下载? DataGrid中如何进行删除、更新、编辑等呢?(C#) 有没有哪位高手知道如何截取window的发出和接受的任何消息??? 急急!!!! 谁来看看 求UltraEdit注册玛 谁有钱能的《C++程序设计》的电子书,多谢多谢,100分相送。E-MAIL:jzhwjkzx@sohu.com 这个是什么代码啊???畸形````````````````````` help 关于installshield的问题,请帮忙!! 有谁知道delphi中的BlockRead 函数 在C++Builder 中对应哪个函数吗 还有BCB中如何读取二进制文件? 怎样记录下用户访问网页的时间和IP地址呢? !!!大送分 请教JAVA中读一个文件的时候 怎么锁住它 不让别的程序来写 SQL查询问题 关于Listview的问题 为什么出现AV错误? ?关于〔水晶报表〕,请您指教 高分赠送:求solaris下的整个目录情况. Linux下进程或者线程间使用什么方法通信效率比较高?谢谢! 关于select语句问题 请高手帮忙,给出一个关于modem编成的源码 三层开发后的程序分发问题,请进! 請各位幫忙~~~~~~~~! NT4上的500错误怎么解决呀? 哪位认识它:readme.eml(图表是一个打开的信封,白色) 急!!UserControl_Resize()什么时候触发? 如何取得当前的数据集??急急! 如何从网页上下载图片到本机? 哪位认识它:readme.eml(图表是一个打开的信封,白色) 编译提示打不开rc文件.怎么办啊? bitmap和icon什么的还可以在Resoure里编辑. 有无可能向用户隐藏下载文件的地址? DataRowView的问题 我用delphi一年多了,下面是我做的一个小东东,欢迎大家提意见。 硬盘被关闭的问题 请问,做一个dcom程序,怎样注册server端client端, 新浪视频直播怎样? 为什么礼花打不到星星呢?呵呵```` 在培养条件完全相同的条件下,用一种培养液分别培养单细胞绿藻和单细胞酵母菌,培养结果如图.造成酵母菌培养失败最可能的原因是( )A.培养缸没有置于光亮处 B.培养缸没有密封C.培养液 高中生物出生率死亡率何值时达到最高?求详解 为什么烟花打不打天上的星星 卫星定位系统与灾害 一物质的密度与取作标准的某一物质的密度之比是“比...” 烟花为什么冲不到星星不说 唐朝是我国古代文化灿烂的历史时期,请你举出三个例子说明唐代文化的繁荣 历史上有哪些名人关于‘选择’的故事?最好是中国古代的!就是一个人面临多种选择,选了其中一种,就有了伟大的成绩 物质的密度的改变因素有哪些?最好再加上“随着**的升高(降低)而增大(减小)” 唐代是我国古代文化灿烂的历史时期,请你列举出三个事例说明唐代文化的繁荣.要简短一点的.唐代的建筑具有哪些特点?为什么会呈现这些特点?唐代还有哪些科学技术走在世界前列,请再列举 中国古代历史名人 物质的密度会不会变化.好像是会,说一下什么时候会变,什么时候不会,我很纠结== 中国古代有什么什么历史事件?没财富了,为了我的小说,600多财富都米了...写清楚点好不好啊,虾米东西嘛 GPS的含义是什么 我用的是云锡63/37的锡条,在向锡炉内加锡渣还原粉后.使用两个月后发现经过波峰焊后的焊点很暗..几乎没什么光泽度..我打电话问了我朋友的厂..也出现同样情况---------请问是锡渣还原粉在作 温度计原理谁不是冷长热缩吗?水不是冷长热缩吗? GPS时的概念? 手机里有没有GPS天线?我经常看一些手机拆机,就是自带GPS功能手机,但是没看到GPS天线,怎么回事? 我国古代音乐历史划分 GPS单点定位的概念 有没有懂手机天线行业或者GPS天线的? 繁华落幕是什么意思? 三菱电梯GPS型,其中GPS的含义!那SP--VF? 什么样的手机带有gps天线 繁华落幕跌红颜是什么意思? 在一定条件下同一种物质的密度可能不同 这句话对吗 为什么 手机GPS需要专门的手机天线的吗?手机GPS功能,是不是需要专用的手机天线的呢?如果换了手机的天线,GPS功能是不是就会失效? 繁华落幕,那曲终人散. 根据元素周期律知识,铅的金属性比锡强,而在金属活动性顺序表中,锡的活动性比铅强,这是否矛盾? 演讲稿 敬畏生命 善待动物(400字左右)是300字,打错了 繁华落幕 ,物是人非 什么意思啊? 金属性和还原性有何区别 描写潮水声音的四字成语 人为什么要善待动物你要几分我给几分 0.5molH2SO4质量是___g,含___个分子,含___mol氧原子,能和___molNaOH完全反应,该硫酸所含氢元素质量与___gHCL中所含氢元素质量相同我第一个空写49 第二个是3.01*10^23 但是后面就不会了 谁能给个详细的 繁华落幕 今天坐好一点是什么意思啊? 1molO2中含多少氧分子和氧原子 繁华如彼, 把下面的句子补充完整,使意思表达得更加清楚明白:今天可真冷呀,.秋天的田野多热闹呀,. mol公式一共有那些?...不是CPU哪个摩尔公式哈.... 为什么NaOH浓度过大就会使酚酞溶液褪色?如题 今天的天气真好中“好”的意思.良好中“好”的意思 如何检验氢氧化钠的浓度过大?为什么? 远的深处 虽是繁华 却已靠近落寞 现在的广州繁华还是北京 怎样证明氢氧化钠溶液浓度过大?试验方法 观察到的现象 华丽背后的寂寞,繁华面具的虚伪这句话是什么意思?这句话是别人给我留的QQ印象. 描写烟花的诗句 数学sina是什么 为什么烟花打不到星星 求写烟花的诗句求描写烟花的诗句 SinA=0.675,求角A 谁知道为什么烟花打不到星星 红铜青铜黄铜白铜怎样区分 1:在△ABC中,若sinA=sinBsinC,则一下必为常数的是AtanB+tanCBcotB+cotCCsinB+sinCDcosB+cosC答案是B.我这里有一部分a=b(a²+b²-c²/2ab)①推出b²=a²+c².②①式看不懂.还有,请继续解答. 一截面积为2.5mm2的绝缘铜芯线,当给它的两端接上3V电压后,测量通过这盘导线的电流为2.2A,求这盘导线的长度.(ρ铜=1.7*10^-8欧姆/米) 动物代谢不同于植物主要表现在哪一方面()A.有机物分解 B.蛋白质合成方式C.直接利用的能源物质 D.是否能把无机物合成有机物
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘