说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

电信级数据流量与监控系统部署案例分享

HTML文档下载 WORD文档下载 PDF文档下载
手中握有数据的公司企业仿佛就是站在金矿上,通过不断挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。

编者按:挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。今天分享的内容就是永洪大数据一个大数据分析平台的搭建部署案例。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。

以下为原文:

夜深了,电话铃声响起!这不是恐怖片的开头,却是我们工作的开始。

2013年5月,我们收到一个电话线索,客户需要支持几十亿数据量的实时查询与分析,包括数据抓取和存储,我们经过一番努力提出一个解决方案,客户觉得有些不妥,决定自己招聘Hadoop团队,实施该系统……

半个月后,客户打来第二个电话,明确表示Hadoop未能满足实时大数据分析的需求,决定接受我们的方案,但是客户要求我们不仅出产品,还要负责实施……

于是乎,开工!

项目价值

CMNET网间流量分析与监控系统(简称流控系统),是中国移动分公司的一个项目。项目要求能基于时间、地区、运营商、业务、App、IP分组、域名等维度对全省的上网流量进行实时分析和报告。这些分析报告能给客户带来如下好处:

1. 实现对接入链路和基站的全程监控。例如,一旦来自某链路或基站的流量很低,可及时对链路和基站进行检修,这将大大降低故障率。

2. 由于具备了对链路和基站进行全程监控的能力,客户可以对链路和基站的带宽进行动态调整,基于需求进行合理的资源配置。

3. 覆盖全省的全量数据,能提供基于业务/地域/App/行业/域名等维度的数据分析报告,具备100%的可信度和极高的商业价值。

数据流向

上网数据从硬件设备中抓取出来,形成压缩的日志文件存储在服务器上,服务器每五分钟生成新的日志文件。该服务器提供FTP访问。

我们方案中承担的流控系统,将通过FTP每五分钟访问一次日志文件服务器,将新生成的压缩日志文件抽取出来。这是一个典型的、增量更新的ETL过程,如下:

1. Extract: 定期抽取的日志文件并解压缩。

2. Transform: 解析出上网信息,同MySQL的维度表进行关联,生成包括业务/地域/App/行业/域名等维度的宽表。

3. Load: 将数据装载入我们的分布式集市。

初期验证(POC)

中国移动的日志数据分G类和A类,各取几块样本日志文件,验证数据流向的可行性以及性能。

我们很快完成了ETL的整个过程,宽表数据被成功地装载入我们的分布式集市。

性能上,我们按照用户提出的每天数据量5000万条增量,计算出支持100天50亿数据量的分布式集群所需的磁盘空间、内存总量、和CPU总量。由于客户一再强调预算有限,于是配置了6台低配PC server:1cpu x 4core,32G内存,1T硬盘。

我们模拟了常用的用户场景,整个系统的响应能力基本满足需求。系统架构如下: 

           
系统架构图

正式实施

中国移动分公司的上网数据在内网,一般不提供外网连接,需要严格申请之后才能在一定时间内提供外网连接。因而,我们先把整个系统的ETL工作开发完成之后,才正式申请了外网连接进行数据装载。

从开始进行上网数据的ETL工作,我们就发现数据量与预期严重不符。预期的上网数据是每天不超过5000万条,但实际上每天的上网数据在6亿条以上,100天保存的数据量将会达到惊人的六百亿条。6台低配PC server有点小马拉大车的感觉,完全达不到“海量数据、实时分析”的设计目标。我们赶紧联系客户,确定上网数据每天6亿条以上,而不是之前预估的每天5000万条左右。怎么办?

系统重构

经过与客户的详细沟通和理性分析,大家一致决定进行系统重构。

上网数据的日志文件是5分钟粒度的。我们将上网数据按照分析需求分为两类:

1. 细节数据:保留三天的细节数据(5分钟粒度),共约20亿条。这样,由于保留了细节数据,客户可以对近三天的上网数据进行任意的探索式BI分析。

2. 汇总数据:在认真研究了流控系统的分析报告需求之后,我们将五分钟的细节数据汇总为两小时的汇总数据。这样数据量可以降到约为原来的1/10,100天的数据总量大约60亿条。

重构之后的数据流如下:


数据流图

后期,我们陆续进行了一些系统调优,包括JVM调优、存储调优、计算调优等等。客户打开一个Dashboard的响应时间基本控制在秒级,最极端的分析报告也能在一分钟之内生成。基本实现了“海量数据、实时分析”:

1. 系统定期推送日报、周报和月报。

2. 系统支持探索式BI分析。多数分析请求达到了秒级响应。

案例总结

1. 项目的数据量非常大,100天超过600亿条日志;

2. 项目的预算非常有限,采购了6台低端PC Server。硬件投入不大,软件性价比也很高;

3. ETL过程难度较高,随着降维的需求加入,BI层难度也相应提高;

4. 为达到秒级响应,以支持探索式BI的交互式分析,对系统进行了多个层面的优化。

结束语

有了大数据,还要从大数据中提取价值,离不开分析工具,通过丰富的分析功能,在繁杂的数据中找到其中的价值。而大数据给分析提供了一定的挑战,需要高性能计算做支撑,才能在大数据的金矿中挖到金子。

这些案例的成功实施和上线,完美诠释了我们的大数据之道:大数据,小投入


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 ! 

独家爆料:Facebook移动客户端开发揭秘 一个独立开发者的自白:我如何在一年赚得60万美元 Dropbox收购Snapjoy 意欲打造媒体中心 2012世界“末日”:有经过正确的分析吗?! 23.5亿美元!谷歌出售摩托罗拉机顶盒业务 两家巨头相继放弃移动广告,移动广告形势堪忧? 应用洗牌,还能免费多久?Google推出iPad版Quickoffice 2012末日APP推荐 求生自救必备! Windows8上网利器 不卡死的IE10浏览器 为何Java程序员学习Clojure有优势? 我们是如何阅读代码的? “热水冷却”技术将主导美国国防部数据中心改造 程序员想玩转大数据:需要知晓的12种工具 2012年谷歌应用商店增长迅速 但苹果最赚钱 Apple微软Google都在竞购一家创业公司 违反新条款?苹果强行下架AppShopper 2012移动开发教程盘点:最棒的国外游戏开发站 重思JavaScript的好与坏 细数那些 NeXT 留给 OS X 的遗产 一张图让你知道大数据的生态系统 Camera360开放SDK:拍照和滤镜一行代码搞定 一周消息树:计算机将拥有五感 人类面临威胁? 通晓数学的人就可以当程序员吗? 360发布企业版4.0 可自定义软件白名单 不要总是依赖机器 MongoDB扩展彰显分片功夫 Dell与HP的OpenStack的战略:渠道对抗SLA 路况电台王雷:未来车载系统会是Android的天下 移动周报:2012移动开发工具系列盘点 谷歌不愿错失机会 Android或不再成它人独享 黑客文化:Facebook公布2012年Hackathon大赛顶级“黑客作品” 中国移动音乐开放平台正式对外开放 如何退出函数?exit function??? 测试2000的TCP/IP是否通,用什么命令 求助开发课程表提示 (*****向斑竹你提个小见意,大家最好都来看看,这个想法好不好!****) 为什么我做的增加功能有两个必须要按两次“添加”按钮才能新增一条记录啊? 很急,请教高手,如何把一个ip格式的字符串转换成ip类型,不是用getbyname(),而是像int和string转换一样的概念 请问如何让基于对话框的工具条一开始就浮在上面 来者有分,关于ado的 毛子青论文<<动态规划的优化>>,一个最长子序列的算法,请高手看过来(给出c实现代码的送20分!) 在鼠标单击时间中,可以使用什么函数取得鼠标点击处的坐标值 怎样在单击左键时弹出PopupMenu? 连续20多天加班,近来明显感到体力透支,做个调查!!!(有分) ASP调用VB编写的ActiveX DLL的问题 请教一sql语句 在Unix下用cc(实际上是cc_bundled文件)编译c程序时,报错“const" will become a keyword,或者告诉我“Function prototypes are an ANSI feature" 为何加入winsock2.h后会出现很多问题? 热烈庆祝:Kingron重出江湖!!!菜鸟们有福喽……散分 you shen me qu bie ? please tell me , xie xie ! [■■■Delphi猛料■■■]V1.3发布~~~~~~~更新到2001.12.12 提问:如何在ToolBar上加控件? 我在OLE里调用了word2000文档,为什么只显示第一页,我查了半天资料都没有解决,请帮我 哪里有多媒体软件制作论文啊? 继续请教各位前辈:能否将非新增加的字段定义成计算字段?谢谢! 软件创意、需求大汇集:列创意,拿专家分,120分值大赠送(以后可继续追加) 局渔网 巨简单问题~~~ 进来有分,回答多分,不够再加!!! 关于关闭和启动数据库的问题,很急的!! java VS c#^-^ ?? 请进 寻求QuickReport3以上版本 for Delphi3 的源代码或者安装包? 請問哪大俠用過 ibm 的 bridge2java啊,我把Excel的所有類都導出來了,但它的QuickExcel.java文件還是運行不了, 求救!新装了一块硬盘,为何找不到呀? SetWindowLong函数在delphi里可用,为什么在c++builder 中不能用??? 用弹出式菜单命令弹出一个dialog,可以响应键盘,可是不响应鼠标? 请教,Inserts类是拿来干什么用的? !!!急急急!!!怎样在WIN2000下把NTFS转换成FAT32啊。数据不丢失。 回复太短!或太长!!! visio2002的数据库建模,能不能生成SQL脚本? 急急啊,有關servlet的問題,源碼如下: 添加数据的问题 坐标问题 unix下的nfs Merry Christmas! 给分!祝大家一路发! 每个文件(目录)有3种权限 写DLL? 我定义了三个CSS样式表 高分求教:谁用pb7作过三层结构的东东,我现在要做啦,指点一下吗 Somebody Help Me!! 我安装软件包里的一个DIREX8.1的升级程序后常会出现一个对话框,要我到微软网站升级一个程序 最近在构思一个大型的论坛系统,也想听听大伙的意见,发言就给分!!! 有什么好用数据库建模工具? 帮我看看这段代码错在哪里 对澳大利亚西海岸荒漠环境的形成起重要作用的的洋流属于什么洋流?如题选项:A.风海流 B.密度流 C.补偿流 D.暖流正确答案好像是C, 为什么马达加斯加岛的东部形成了热带雨林气候而西部形成了热带草原气候 大自流盆地的水为什么盐度高呢? 拉尼娜现象对赤道逆流和秘鲁暖流及环太平洋的洋流和气候有什么影响?还有厄而尼诺现象 马达加斯加岛的东侧为热带雨林气候,形成此类气候类型的原因是什么?是不是和迎风坡有关系?什么是迎风坡?感激不尽~ 生活中,浪费水现象是十分严重的,请你列举一些. 为什么水银温度计用过要甩,否则就无法继续用呢? 回归线附近的马达加斯加岛东部不是热带草原气候而是热带雨林气候? 请举出两个实例,说明物质的溶解性与溶剂有关 为什么用完温度计要把水银甩回去?而且再怎么甩也甩不回原点? 澳大利亚东北部热带雨林气候的形成因素有哪些?也就是形成这种气候是由哪些因素促成的. 为什么澳大利亚西部地下水盐分较多?能满足牲畜的生理调节?是不是还和盆地有关? 水银温度计是否可以把水银甩下去以迅速再用? 澳大利亚东北部一小块热带雨林气候形成原因RT. 地下水盐度与什么有关,岛国地下水盐度就高吗? 将一块石蜡,分别放入足量的水和酒精中,当石蜡静止时,它排开水的体积与排开酒精的体积之比为 (ρ石蜡=0.9×103kg/m3,ρ酒精=0.8×103kg/m3) 澳大利亚热带雨林气候与热带沙漠气候的成因 不同物质在同一溶剂中的溶解度不同,举例还有啊同一种物质在不同的溶剂中的溶解能力不同不要只给几个字母的答案= =||| 地处太平洋与印度洋、亚洲与大洋洲之间的“十字路口”是指? 不规则的海绵的体积怎么求?(认真的)不规则的海绵体积怎么求?用沙吧,误差大怎么测呢?个人认为用橡皮泥.请不用水测,水的误差还大些!固化海绵?你那测的是体积?益出水的体积就是海面的体 溶解性指的是溶剂还是溶液的性质? 为什么澳大利亚人口集中在太平洋沿岸地区? 测量一块不规则塑料块的体积利用水和量筒测量一个不规则的塑料块体积,要求能尽量减少误差. 结合生活中的实例,举例说明影响气体溶解度的各种因素.如题 (1)以亚洲太平洋沿岸地区为例,比较自地纬至高纬各气候类型的气候特征的主要差异(2)以亚欧大陆中高纬度地区为例,比较大路西岸,大陆内部,大陆东岸各气候类型的气候特征的主要差异. 生活中有哪些浪费水的现象?怎样制止 乒乓球的体积?乒乓球的体积 处于亚洲与大洋洲之间,连接太平洋与印度洋的海上通道是 如何测白砂糖的体积?辩泉注钝 澳大利亚为什么地下水丰富 一个实心物体放在水中静止时处于漂浮状态,有4/1的体积露出水面,求该物体的密度? 浪费水的例子有哪些 澳大利亚西部的地下水为什么盐分较多? 甲 乙两个实心物体漂浮在水面上,体积之比为2比1,浸在水中部分的体积之比为1比2,那么它们的密度比是多少. 家庭中有哪些浪费水的事例例如:洗脸或刷牙时一直让水流 生活中应用氧气与隔绝氧气的例子!个举两个!谢谢 质量相等但密度不同的A、B两个小球,方放入水中后都处于漂浮状态,其露出水面部分的体积是总体积的三分之一和一半,则两球A.受的浮力比FA:FB=2:3B.受的浮力比FA:FB=1:1C.密度比ρA:ρB=3:4D. 生活中浪费资源的事例比如:使用一次性筷子 浪费水资源之类的 要求距离5个以上 当然越多越好 为什么温度影响氧气在水中溶解的多少 将密度均匀、重为10N的物体放入水中,静止后物体漂浮在水面,若将露出水面的部分切去后,剩下部分重为8N则物体密度为A、1g/cm3 B、0.8g/cm3 C、0.2g/cm3 D、1.2g/cm3 浪费水的例子 生活中隔绝氧气的例子 热带雨林气候的成因!a终年气温高,气流下沉强烈 b终年气温高,气流上升旺盛 如何测量泡沫的体积不可以是排水法 在生活中隔绝氧气的例子 氧气不易溶与水,那水中的生物怎么生存呢(不是生物问题) 海绵的体积海绵,δ=20,加工尺寸510*505,数量1,体积怎么算啊?万分感激 澳大利亚大自流盆地的原理 如果氧气在水中溶解很大时我们可以在水中活吗瞎想的 60°s附近海域海水的盐度比60°N附近海域海水的盐度要高,原因是什么? 澳大利亚大自流盆地形成的原因? 请问:物质溶解在水中,体积是否会发生改变如果是NaCl溶于水呢 测乒乓球的体积器材;量杯.水.细线. 向A溶液中加入B溶液,先有沉淀生成后又溶解.AB分别是? 一块糖在水中溶解后,水和糖的总体积有什么变化?为什么? 为何澳大利亚大自流盆地的自流井盐度较高? 沉淀溶解溶液将BaCO3(Ksp=2.6x10-9)和 CaCO3(Ksp=4.9x10-9)置于水中,形成含有CaCO3(s)和 BaCO3(s)的饱和溶液,此溶液中c(Ba2+)和c(Ca2+)分别是()0x10-5 和 5.7x10-5 泰国,新加坡,新西兰,澳大利亚,科威特,秘鲁,智利名称的原意 水中溶解物质时 温度或体积为啥有变化 澳大利亚大自流盆地中的井水,不宜灌溉农田的主要原因是 A、 水量过少,仅能提供牲畜饮水 B、水位低,提水灌溉成本过高 C、井水盐度较高,会引起土地盐渍化 D、井水含沙量过大
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn