说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

九头蛇与大象之争,Hydra或将取代Hadoop

HTML文档下载 WORD文档下载 PDF文档下载
Hadoop是一个面向批处理的系统,对数据实时处理的支持较差,这将会成为其未来发展的瓶颈,而Hydra从设计之初就考虑了数据实时处理的需求,宣布开源后,得到了越来越多的支持,未来Hydra很有可能取代Hadoop。

【编者按】Hadoop被认为是最好的大数据分析平台,本身就具有较好的性能,还有活跃的开源社区支持,Hadoop创始人Doug Cutting也曾预言未来Hadoop不仅仅用于大数据处理,还将成为数据平台的系统内核,将用于在线事务处理……Hadoop的发展前景似乎一片光明,却没有注意到竞争者的出现,Hydra在某些方面甚至具有比Hadoop更加优越的性能,宣布开源以后,Hydra得到了越来越多的支持,未来Hydra极有可能成为Hadoop强劲的竞争对手,Datanami的主编Alex Woodie为我们带来了详细分析。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。

以下为译文:

Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像Hadoop一样,只是还没有Hadoop那样的知名度和声势。Hydra的创造者称,该“多头”平台非常擅长处理一些大的数据任务——对非常大的数据集进行实时处理,这样的任务恐怕会让那只大象(Hadoop)很头疼。

Hadoop仍然是一个储存大量数据的优秀平台,但很多公司面临着另一个问题,我们将数据存储到Hadoop之后如何去分析数据,无论是Hive还是Pig都需要方便地访问Hadoop中的数据,才能从中获得的价值。正如我们看到的:Hadoop用于实时分析并不合适。

Hydra是一个大数据存储和处理平台,由MattAbrams和他的AddThis同事们共同开发完成。AddThis也就是过去的Clearspring,是开发Web服务器窗口小部件的公司,使访问者可以通过Twitter、Facebook、Pintrest、Google +或者Instagram轻松共享他们的数据。


当AddThis开始逐渐扩大其业务时,它对越来越多的用户数据渐渐感到无能为力。该公司需要一个可扩展的分布式系统,对其用户共享的这些数据进行实时分析。那时Hadoop无法满足AddThis的需求,所以它开发了Hydra。

那么,Hydra到底是什么?简而言之,它是分布式的任务处理系统,可以同时支持流处理和批处理。它利用一种基于树的数据结构来存储和处理具有数千个节点集群的数据。它具有一个基于Linux的文件系统,这使得它可以与ext3、ext4甚至ZFS兼容;它还具有作业/集群管理组件,可以自动为集群分配新的作业和平衡已有的作业;系统还可以自动将数据备份,并自动处理节点故障。

Hydra包括很多的组件:跨异构集群处理任务的分布式作业执行系统、可网络访问的文件服务系统,还有本地备份及远程备份(考虑到难以预防的节点故障)。

基于树形结构使它可以在同一时间处理流数据并进行批处理作业。AddThis工程部门的一位成员Chris Burroughs在他1月23日的博客中首次宣布Hydra开源,还提供了对于Hydra精辟的描述:“它摄取流数据(比如日志文件),并生成聚合树、摘要树或者数据转换树,这些树可用来探索(小型查询),作为机器学习的一部分(大型查询)、或者在网站上支持实时控制台(大量的查询)。”

Hydra最初是用以帮助AddThis解决自身问题,供内部使用,以及为网站运营商提供服务。典型的问题包括:“上个月有多少用户访问网站?”以及“网站从不同国家和浏览器获得访问量分别有多大?”

AddThis继续使用Hydra来处理其大规模的数据流量,分析其客户得到网站的发展趋势。AddThis可以了解人们在线分享了什么,哪些话题比较热门。社交标签服务被超过1300万的网站使用,一个月有13亿用户访问,平均每天30亿访问量产生10TB数据,现在Hydra在AddThis的上千个网络节点上运行着。

Abrams通过邮件告诉Datanami:“我们处理大型数据集已经很长时间了,Hydra一直以来对我们都非常有用,我们觉得它以独特的方式解决了分布式数据处理的问题。”

传统的Hadoop面向批处理,而Hydra可以同时支持批处理和实时流处理。Abrams说:“Hydra支持的批处理主要侧重流分析和增量数据处理,能够使用树形数据结构描述数据,对自然数据进行压缩及高效查询和访问。Hydra可以从HDFS中生产和接受数据,但它在本机文件系统上完成操作,这使其可以在Hydra上灵活地使用其他服务。”

现在Hydra已经开源,Abrams希望该软件会被更加广泛的使用,并得到更好的发展。“这将需要一些时间,但我们相信未来我们将建成一个完善的Hydra开源社区,这样AddThis和OS(开源)社区都可以从Hydra未来的发展中受益。在华盛顿特区已经有一些其他公司在使用Hydra了,我们很期待Hydra社区得到进一步的发展。”

2013秋天,Doug Cutting,Hadoop的创始人也是Cloudera的首席架构师感叹Hadoop缺乏替代品——那时Cutting说:“我多么期待能有更多像Hadoop一样的系统出现……”虽然如今Hadoop在大数据界占据了主导地位,但谁又能说它会是唯一的一个大数据分布式计算平台?相信未来Hydra的发展不会令他失望,对于未来Hydra的发展,我想引用Cutting的另一句话:“天空才是极限。”

原文链接:Hadoop Alternative Hydra Re-Spawns as Open Source(编译/毛梦琪 审校/魏伟)


以“云计算大数据 推动智慧中国”为主题的第六届中国云计算大会将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上报名
移动周报:Xcode 5.1更新、CarPlay揭秘,Apple很忙 可穿戴领域,创业公司的掘金点?还是滑铁卢? 搜狐SendCloud2014运维技术沙龙拉开帷幕 一周热点:选择Go语言的12个理由,九头蛇与大象之争 中国云计算大会PPT集萃(二):十位技术大牛分享平台打造技术 延迟250毫秒损失数百万美元,Hadoop系统该如何应对实时任务 IBM成立展示中心扩展大型主机的Linux开放生态系统 SDN解决方案总结:OpenFlow、虚拟机、OpenStack和VXLAN/NVGRE 第六届中国云计算大会将于5月20-23日在京隆重召开 大数据实战:站在JMP分析平台上的FIT足迹识别技术 首届SAP d-code大会在上海举办 【OSTC讲师专访】ZoomQuiet:因商业化而开源是中国开源界最大的囧处 亿元资金扶持+联手100家VC,腾讯的雄心壮志 美国史上最大IPO 能给阿里巴巴带来什么? 买Windows平板而非iPad或Android的十大理由 Framework7:不会Objective-C,也能开发iOS7应用 CocoaChina开发者大会 全新引擎Cocos 3d-x开源 Oracle和微软的抱团,以及对抗Amazon霸主的5个可用点 Agile已死 Agility长存? 论程序员的自我修炼 Github女员工因遭性别歧视离职 继七年iPhone、四年iPad后,苹果的下一城:Healthbook 普元CTO焦烈焱:专注于基础软件 在Spark上的深入实践 Python 3.4.0正式发布 未添加任何新语法特性 谷歌受困邮件挖掘丑闻,企图抹掉庭审记录 Python 3.4.0发布,增加了多个功能模块 美的+阿里,“云端”战略第一把火是智慧家居 对产业互联网战略的战术思考——争夺企业信息入口的战争 加入Cassandra,OpenStack发力DBaaS生态圈 死磕Google Keep,微软正式发布Mac免费版OneNote 《近匠》安管云CTO石磊:降维安全的开放平台 我下面的问题解决了 ORACLE统计问题 腊肉是月老啊,单身的哥哥们找腊肉拉红线啊! 新闻搜索 using namespace std; 微星845 Ultra-C 支持P4赛扬2.0的吗? 请问哪里有关于cc的比较好的文档资料. 水晶报表的问题!!!!!!!!!!!! 关闭Jbuilder9时,会弹出微软拼音输入法的关于信息框,如何解决? TreeView的删除问题/// 怎样在delphi里使用windows定义的结构体 问个问题 顺便散分 sub main问题 郁闷,一夜起来信誉分掉了一大截,散分 请问UNIX下makefile 是怎么一回事 我在学习C#,不过基础不好,很吃力!中秋快乐! 如何防止文件被访问?谢谢! 今年中秋我爸收了一大堆礼物,价值估计不下于20万(我爸是税务局长),呵呵,太高兴了!再散点分给大家!今年中秋我爸收了一大堆礼物, ASP.NET有没有类似javascript中的window.confirm( )这样的方法,弹出对话框提示是否确认? C#builder里的CaliberRM有谁用过? 学ASP学的我晕了,大家给条路!!! 简单问题求助~~~~~~~~~~~~~~~ sql7.0到sql2000升级 图像存储及传输的计算问题? 为什么不能共享? 大家讲讲TreeMap的使用,回答好的立刻给100分!! 请问哪里有免费的或破解的查木马软件下载?? 在ASP.NET中能控制输入法吗?在.NET应用程序中有一INPUTLANGUAGE类,可以控制,在ASP.NET中能实现吗? 有谁做过用moden拨号连接,访问另一台pc,建立连接 如何让bean中的“输出”定位到网页中的特定位置? 请问以下这个项目如何设计?关于图形数据库系统的 触发器的大问题,请各位高手支招: CEO是个什么职务?有多大管理权限? 一个看似简单.....其实非常难的问题....小妹初学web开发. 为什么不能共享??? 100分求:哪儿有《深入理解linux内核》可供下哉! 工作机会 JBUILDER是否帶有TomCat﹐如何安裝使用﹖ 这里有没有用过realbasic的朋友 为什么不能共享??? 报表怎么样进行总计,一个QRexpr的问题? 请推荐 求救,如何用实现在同一个局域网内另外一台电脑用ADO访问服务器的ACCESS文件,马上给分 请问高手,以下问题如何解决? 在java中怎么把日期0204改成2002-04 在自己建立的文件夹下建立文件,可怎么都不对头!!SOS!! 数据窗口打印问题,多多帮忙!!!!!!!!!!!!!!!!!!!!!!!!!! 在SQL中写个函数,急 我刚学编程没有多久,发现在数据库很重要,但不知道怎样一个用一个系统方法去学习?请各们前辈能给我以指点。非常感谢!!! 我用ADO做了一个数据库应用,数据库是ACCESSXP,ODBC JET4。0?有一个问题 使用DEV-C++进行命令行编译的设置问题 《清平月·六盘山》谁有谢谢提供! 清平月 六盘山的全诗解释 (急!清平月·六盘山的全诗解释 急!同志,拜托.是全诗的意思.翻译一下,没那么复杂额 小强刚学完初中的电学知识,恰逢家中点灯不亮 更漏子玉炉香 温庭筠塑造了一个什么样的人物形象 问字怎么读? 求带希字的四字词语.谐音也行. 姓韩的历史上又名的坏蛋大家帮我找找,性韩的优美有什么坏蛋,历史上特别出名的也行,实在没有就是个比较出名的太监都可以,反正只要姓这个韩就可以了~@我想骂韩国人~@ 做个数学题:A,B,C分别为三角形的三边之长,求证:(A/B+C)+(B/C+A)+(C/A+B) 母爱作文200字写的好一点,短一点 关于母爱的作文200字 国家结构形式 世界前政要感受中共改革雄心老牌肌肉男星上演\"金蝉脱壳\"史泰全国物理竞赛浙江拿下7块金牌 杭二中新消法:回避\"知假买假\" \"假习近平鼓励企业加强研发不断创新西湖剪影(图)习近平“现身”中南大学 大学生欢呼雀孙杨因无证驾驶被处罚款2000元并行温州被砍男童收到爱心款超35万 家人叙政府称:日内瓦会议旨在让总统下台则16秒26 温州17岁高二女生单手玩米奇 高尔挑衅诺斯卡特:我将会打断他努涅斯:我200%确信将在UFC20“骨头”琼斯将在万圣节接受对美国反兴白大拿回应“机械兽”贾斯蒂诺对UFC“格斗沙皇”菲多的大女儿遭不明身份者UFC204赛后评:亨德森正式退役,白大拿:媒体就是困扰隆达 罗西的根本白大拿:“嘴炮”康纳不能长期同时持有穆赛、亚历山大再战昆仑决 争夺世界冠白大拿为UFC薪水结构辩护:你能猎到白大拿:“蜘蛛”席尔瓦对于UFC不满超星联学院超脑天医火影之盗帅传奇天天称霸宠物小精灵之拂晓司夜轮回黄天化三国重生幻想乡的月都人术仕禁修仙令极道玄界恩施土司城旅游达里诺尔湖旅游曼陀山庄旅游白音敖包旅游阿斯哈图石林旅游黄岗梁旅游热水温泉旅游小七孔风景区旅游基督教东山堂旅游东山少爷公园旅游青龙峡旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘