说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

延迟250毫秒损失数百万美元,Hadoop系统该如何应对实时任务

HTML文档下载 WORD文档下载 PDF文档下载
管理越来越多的数据确实是一件让人头疼的事情,传统的数据库解决方案很难适应大数据的要求,使用Hadoop、选择一个合适的Hadoop发行版很有必要,而对于现有的Hadoop系统又该采取哪些措施进一步提升性能和扩展性?

【编者按】如果由于你的系统性能低下而造成业务处理缓慢、延迟现象严重,那你应该认真考虑是否该选择一个更好的Hadoop发行版了,因为网站性能的低下已经严重影响到销售转化率,250毫秒的延迟可能意味着几百万美元的损失。不同的发行版之间有着很大的差距,如何选择一个好的发行版,怎样改进现有的发行版,当然低成本也是必须要考虑的问题,MapR企业营销部门副总裁Michele Nemschoff为我们找到了答案。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。

以下为译文:

在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷。

选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要。最终,你会发现选择哪种Hadoop发行版取决于主机的规格,尽管性能和扩展性才是你应该仔细检查的两个主要特性。让我们了解一下一些具体的Hadoop性能和扩展性要求,以及对几个关键架构的要求。

性能

企业需要摆脱传统的数据库解决方案来管理数据,主要原因是为了增加原始性能并获得可扩展性。这可能会让你感到惊讶,因为并不是所有创建出的Hadoop分布系统都一样。

在我的另一篇文章中曾讲到,增加250毫秒的延迟可能会毁掉整个线上销售的旺季,我们可以了解一下为什么性能的低下(高延迟)会让人难以忍受。网站性能的迟缓会使线上的销售转化率下降7%,这对于流量很大的线上零售商来说意味着数百万美元的损失。

正如你在下图看到的那样,将MapR M7版本与另一个Hadoop发行版对比,在延迟上的差别意味着性能的不同,而不同发行版之间性能差距也是惊人的。


当你考虑Hadoop的实时应用时,比如金融安全系统的实时应用,那样对高性能增加的要求甚至更高。

要特别感谢像Hadoop这样的技术,它使金融罪犯窃取数字资产变得越来越难,金融服务公司比如Zions银行现在已经能够在银行客户感觉到任何实质性影响之前阻止财务欺诈。对于分析和实时数据响应来说,高性能和可靠性很有必要,这可以阻止破坏性欺诈活动。

扩展性

Hadoop的另一个主要优点是可扩展性。不用通过单一的企业服务器限制数据吞吐量,Hadoop可以跨计算机集群完成对大型数据集的分布式处理,从而在商品化硬件多个部分之间采用逐个击破的办法消除数据上限。

这种体系结构只是数据可扩展性提升的起点,还远没有结束。关于可扩展性,Hadoop平台内还有三个方面需要进一步考虑:

文件瓶颈

Hadoop默认的体系结构利用单一NameNode作为剩余数据节点的主节点。因为单个NameNode,所有数据被迫进入到一个瓶颈期,这就将Hadoop集群限制在只能有5000万到2亿个文件。

单个NameNode的执行情况也需要使用商业级NAS,而不是预算友好型的商品化硬件。

对于单一NameNode体系结构有一种更好的选择——使用分布式元数据结构。下面提供两种体系结构的可视化比较:


正如你所看到的那样,分布式元数据架构使用的完全是商品化硬件,不仅节省了成本,它还使性能提升了10-20倍,摆脱了文件瓶颈,使文件数上限达到了10亿,比单个NameNode的体系结构在容量上提升了5000倍,这确实是很大的成功。

节点扩展

Hadoop的一些较小用户对数据存储和处理并没有太高要求,因此能够在更少的节点上运行,而有些Hadoop实现则可以达到了数千节点的规模。

这也是Hadoop可扩展性非常出色的地方。从一个入门级大数据实现扩展到具有数千个节点的集群很容易,按照需求增加商品化硬件可以使成本最小化,这涉及到数据处理成本以及需求增加所需投入的成本。

节点容量

除了节点的数量,考虑到物理存储限制,Hadoop用户还应该检查每个处理和存储容量。你可以使用具有更高磁盘密度的节点减少总体节点数量,同时还能保证数据存储的要求。

架构基础

Hadoop的性能和可扩展性可以被进一步提升,前提是你要有多架构基础分布式系统的思想。

减少软件层

软件层太多,会导致导航成本的增加,使Hadoop系统的性能很难得到提升。

使所有应用程序在同一个平台上运行

一些Hadoop发行版可能会要求你创建多个实例,一个优化执行将使同一个环境中所有的工作负载被同时处理,这就减少了重复数据的产生,因此提高了可扩展性和性能。

利用公共云平台获取更好的弹性和可扩展性

一个好的发行版使你可以在自己的防火墙内灵活地使用Hadoop以及可靠的云环境,比如亚马逊网络服务和谷歌计算引擎。

最后,选择正确的Hadoop发行版应符合业务需求,不仅仅考虑当前的需求还应考虑未来的需求。分析每个发行版的性能和可扩展性,同时考虑架构基础,这也是在组织内成功实施和评估Hadoop的基础。

原文链接:How To Maximize Performance and Scalability Within Your Hadoop Architecture(编译/毛梦琪 审校/魏伟)


以“云计算大数据 推动智慧中国”为主题的第六届中国云计算大会将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上报名
两家巨头相继放弃移动广告,移动广告形势堪忧? 应用洗牌,还能免费多久?Google推出iPad版Quickoffice 2012末日APP推荐 求生自救必备! Windows8上网利器 不卡死的IE10浏览器 为何Java程序员学习Clojure有优势? 我们是如何阅读代码的? “热水冷却”技术将主导美国国防部数据中心改造 程序员想玩转大数据:需要知晓的12种工具 2012年谷歌应用商店增长迅速 但苹果最赚钱 Apple微软Google都在竞购一家创业公司 违反新条款?苹果强行下架AppShopper 2012移动开发教程盘点:最棒的国外游戏开发站 重思JavaScript的好与坏 细数那些 NeXT 留给 OS X 的遗产 一张图让你知道大数据的生态系统 Camera360开放SDK:拍照和滤镜一行代码搞定 一周消息树:计算机将拥有五感 人类面临威胁? 通晓数学的人就可以当程序员吗? 360发布企业版4.0 可自定义软件白名单 不要总是依赖机器 MongoDB扩展彰显分片功夫 Dell与HP的OpenStack的战略:渠道对抗SLA 路况电台王雷:未来车载系统会是Android的天下 移动周报:2012移动开发工具系列盘点 谷歌不愿错失机会 Android或不再成它人独享 黑客文化:Facebook公布2012年Hackathon大赛顶级“黑客作品” 中国移动音乐开放平台正式对外开放 GitLab 4.0发布 更好地支持PostgreSQL 傻瓜式移动应用开发平台:专访摩讯创始人赵健 日本DeNA进军中国智能电视,与海信战略合作 扎克伯格不仅为Poke编码,而且还“献声” Wordament:首款支持Xbox Live成就的iPhone游戏 请问哪里可以免费下载到linux的源代码啊?谢谢! 如何择书与读书? 加QQ:82439610 我来建个ORACLE、PL/SQL的QQ群! 大家多交流! 我想转行到计算机软件,您有什么建议呢? 各位高手,看看这个贴!!谢谢 菜鸟问题:请教red hat下用.iso的安装镜像文件升级软件包的问题 这个中秋霉到家了,看看还有没有比我更霉的,同时祝愿自己能快点度过难关好起来!!!!!!!!!! 帮忙看看这个SQL语句什么地方错了? 此上机题的程序代码应该怎么写 想找个unix高手,有没有啊? 那里有java的帮助手册下载?类似于萎软的msdn & 0xFFF0是什么意思 银行存钱手续费问题 计算机网络——熊桂喜 译 INPUT如何用图片作背景? 谁能给我贴一个 Regular 动态 mfc-dll的例子! 函数怎样调用? 在线的各位高手,请问哪里可以下到SYBASE11.9.2安装程序? EJB-QL问题,怎么使用模糊查询LIKE? 请进 为什么我装了声卡驱动程序后,只能听到声音,却说不了话? rh9中用户目录下的.profile为什么不起作用? 我是专学PL/SQL编程的,但是我觉得这个不像是真正意义的编程! 大家进来看看吧! VC6下如何向Oracle中添加和读取BLOB型的数据? 一个关于Delphi6和Delphi7的问题 请问怎么知道C# MSDN 里的每一个类,每一个方法是做什么用的? 问题挺多的?请不吝赐教!都是小问题! 输入光标的移动问题 菜鸟请教:请问如何打包成jar和jad文件? 关于Oracle存储大量二进制数据的问题, 有武汉的朋友么! 加我qq 7095682 看完《美丽人生》 帮帮我 一条菜虫问一个很菜的问题? 当数据库中没有图片时候该怎么办 关于时间掩码? 问题挺多的?请不吝赐教!都是小问题! Turbo c一定要安装在win98下吗 如何修改存储器参数,我的表会越来越大,原来用默认参数 看了下面的帖子后我自己的一点感受 我怎样定位我的涉及DataReader的表格? 如何制做半透明窗体,上面的控件也要能控制是否透明。 我要转行了,也许CODEING只是爱好,要把它做为职业,惨,,, 请问大家能不能推荐一本关于PHOTOSHOP 7.0 DREAMWEAVE MX 的书籍 一个简单的图像序列化存储 EDIT1.TEXT从用户接受的内容如何放进ARR 设计数据库时这样的情况应该如何处理 CFileFind::FindFile()的查找路径是怎么确定的? 很菜的问题 关于red hat9的小问题 不知是程序写多了还是失恋的缘故!我头上有一块地方不长头发了,医生说是斑秃!不知程序员里有斑秃的吗? 1-22的英文怎么写 {"no":308,"error":"","data":{"fid":46,"fname":"nba","is_login": 22用英语怎么写 《苏武传》《张恒传》背诵哪几段? 望远镜鲨鱼M6怎么样 《苏武传》练习题 1、找出通假字并解释 (1)且单于信女,使决人死生 (2)不顾恩义,畔主背亲 (3)与旃毛并咽之 (4)掘野鼠去草实而食之 (5)空自苦亡人之地 (6)信义安所见乎? 一什么三秋 用所给的词适当形式填空1,The teacher came into the classroom while the students( ){talk}loudly2,Many people in China have ( ){person}computers at home3,Grandpa ( ){bring}me some oranges last week 隔一日 如三秋 打一数字 要理由 谁能帮我写句诗,反对这一句"叶繁终唯枯,人聚终唯散这句诗很悲观,谁能帮我写下一句能对上,还要和这个观点相反那个十三月十七日的有点感觉,还没有让我特别感觉好的 “叶繁终唯枯”相反的句子也要5个字的.“叶繁终唯枯”的意思是枝叶茂盛最终也只有枯萎我要的是和这个意思相反的句子,也要5个字的。“花开终唯败”是下句,不是我想要。 土耳其买中国导弹为何一波三折“美丽中国”图片展走进科特迪瓦京津冀浙多条高速路段因大雾通行受阻今起浙江93、97号汽油每升便宜6分美售P3C首架飞机抵台 马英九称与日男子在石家庄博物馆泼人硫酸 警方称嫌工作强度大工资低 台州公交公司有车无台湾花莲昨晚发生6.7级地震 台州各上海让全班学生互扇耳光老师被解聘就业市场前三季度逆势走稳 未来总量存日本最新型潜艇“黑龙”下水 苍龙级潜把加强投资者保护作为修法根本宗旨 全重庆破获特大非法制售注册商标标识案 河北雪松、桧柏等苗木仍供不应求河北苗木种植户为何烧掉“摇钱树”“百年铁路大厂”今起全面投产一枚军用火箭在俄北部发射时坠毁 无人云南漾濞龙潭乡着力移风易俗 扎实推进云南河口交警创新工作方式做好农村客运“中国国际数字知识产权监测维权平台”小说《少女奢香传奇》面世 讲述奢香夫习近平会见日本首相安倍晋三符文武者的冒险世界我家的太阳花英雄联盟战竞存生灵天水地火录穿越之我是凹凸曼篮坛天神乡下人的传奇炫技时代神迁漫步无限恐怖石头公园旅游铜鼓岭旅游百莱玛度假村旅游仓姑寺旅游妙应寺旅游苏澳冷泉旅游观澜人民公园旅游花岙岛旅游皇城沙滩旅游南长涂沙滩旅游八仙山旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘