说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Hadoop Summit 2013见闻:创业与Hadoop 2.0不可阻挡

HTML文档下载 WORD文档下载 PDF文档下载
Hadoop Summit 2013正在美国进行,这不仅Hadoop生态圈的盛宴,也是各路玩家的战场。不仅有Sqrrl、Wandisco、GridGain等新创业公司涌现,也能看到核心玩家Cloudera和Hortonworks互相角力。本文转自钱岭的博客。

Day 2:

今天参加了3个keynotes,42个session中的8个,和一大堆厂商讨论技术,真是信息大爆炸的一天。

Hadoop从诞生到今年已经有7个年头,今年出现了很多新的变化:

1、Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力(Gartner)。


几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入,Teradata还公开展示了一个一体机;另一方面创业型Hadoop公司层出不穷,这次看到的几个是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了开源的或者商用的软件。

2、Hadoop生态系统丰富多彩,但是核心已经被Cloudera、Hortonworks牢牢掌控,基本上没有撼动之可能。今年Hortonworks的宣传是100%open source,Cloudera只好干着急,谁叫他不开放Cloudera Enterprise Manager的源代码呢?Hortonworks介绍Ambari的时候,会场至少5个Cloudera的工程师在仔细聆听,有个小伙不停地在iPad上面速记,竞争可见一斑。个人估计,Cloudera早晚将Enterprise Manager开源。Hortonworks目前Ambari的committer是20+,Contributor 50+,后一个数字可能有些水,但是第一个是没有问题的。目前每天有update,1.25版本比1.0x版本明显好用了。其他大小厂商的生存之道就是搞插件,如Wandisco、VMware、Mellanox、GridGain,而且插件均是不用修改内核的外挂,这些厂商是没有能力动内核的,持续投入可能会有一些作用,如VMware,但是一线Hadoop厂商是绝不会松手的。

3、Hadoop 2.0转型基本上无可阻挡。Hortonworks的VPArun在介绍 Tez的时候,给出了很多有趣的PPT,主旨就是一个:MapReduce已经是昨日黄花, Yarn将是未来并行计算的基础设施。我自己还没有使用Yarn,但是Hortonworks已经围绕Yarn开发了很多工具,尤其是Tez,这个玩意可以提升查询计划的执行时间,PIG和Hive将被改写并重装上阵。Hortonworks虽然没有搞出来 Impala,但是从更底层的技术上包围Impala,两个老大的布局和较量始终没有停止。

 


4、SQL over Hadoop是一个重要的技术趋势。去年Hadoop World时,MPP还吹嘘自己如何牛X。但是Google发布了 Dremel和 PowerDrill,EMC搞出来 HAWQ,Cloudera搞出来Impala之后,所有的MPP都开始反思自己的技术路线。和Parccel技术人员(感觉是售前)讨论了一下,她找出一张卡片说Parccel速度是Hive的100X,领先Impala10年。我感觉这个说话很快就会失灵,首先是Hive的优化一直没有停止,Hortonworks搞出来Tez、 Stinger(与Facebook合作)。虽然MPP领先Hadoop很多年,根据80:20原则,如果HadoopSQL只做用户需要的20%特性,那么这个差距最多2年,2年内,HadoopSQL将在部分领域超越MPP。MPP企业的出路就是学习HAWQ。列存储也是推陈出新,近期主要是ORC(微软和Hortonworks合作)、 Parquet(Twitter和Cloudera合作),有木有看出来两个巨头PK的身影?有木有看到抱团PK?这些技术在测试中均显示出很大的优势。


5、IT和开源组织合作广泛。这个不仅仅存在IT厂商和开源之间,实际上开源之间也在密切合作。不太清楚合作的内部信息,但是基本上有两种模式:产品/软件交叉集成(含管理系统集成);合作开发和推广。在技术方面就要求软件有很好的架构,提供开放的接口,这一点Ambari的设计和俺对HT的要求一模一样,可以俺未能如愿,而Amabri已经开发了好几个版本。

6、技术上看,大数据和云的整合也是一个选项(注意,不是趋势,而是选项)。今年新增了OpenStack相关议题,一些集成商和厂商也提出了云上Hadoop的适用场景。这个并不是适用于所有人,但是部分用户可以因此获益。Netflix是一个典型的例子,他们的实例都在AWS上面,显然他们的Hadoop是基于虚拟机的,和一个Netflix小伙子(日本人)交流,他们大约有2000个虚拟实例,基于 EMR,并开发了Gennie管理系统。


Day 1:

由于时差,大早上5:00左右就起来了,早餐并干活后就跑到会场去了,第一天是meetup、BOF和布展,好几个感兴趣的Meetup在时间上重叠,上午听了YARN和 Accumulo,下午听了HBase和Ambari。其他的还有包括data scientist、System Integration、PIG、Hive等众多meetup,也就只好放弃,好在很多内容都会在今天上午的主题演讲中出现。

YRAN的Developer Meetup是几个Hortonworks的哥们主持的,先是收集大家的问题,主要包括intro、roadmap、API、compability、 Storm、HBase等内容,以讨论形式为主,不过由于参加者中只有少数是Yarn Developer,也会有有很多基础的问题讨论。有个Yarn的用户提到jar包的依赖性和命名规范等问题,这个目前Yarn目前并未考虑。

Accumulo是NSA(PRISM的源头)发布的开源系统,基本上类似HBase,但是提供了Cell级别的安全访问控制,在内部实现方面可能也有些不同(需要看代码才行),提供了Iterator API和一些批量处理的API。介绍者有2人,一人估计是 Sqrrl的,一人是HortonWorks的,感觉里面不少人都互相认识,这个也不奇怪,要是在中国,这种meetup肯定也会遇到很多熟人和前任同事啥的。Sqrrl是一个基于Accumulo的商业化软件和服务,提供了图分析和计算的能力,感觉是个挺不错的东西,可惜不是开源的,掩饰着给出了一些类SQL,输出结果是可视化的图形,而且可以在图形上进一步操作。


HBase meetup貌似也是Hortonworks的人主持的,一个印度哥们代替演讲者介绍了一个基于Yarn的HBase部署工具 Hoya,这个玩意不是必备工具,但是对于需要在同一个Hadoop集群上部署不同HBase版本进行测试同志、或者需要按需使用HBase进行分析的同志使用。现场演示看了一个Yarn集群上部署N多HBase的演示,只需指定配置文件和几个参数就可以部署。在演示HBase集群停止再启动的时候,戏剧性的场面出现了,只有master启动了,3个region server都没有出现,全场哗然,印度小哥们很淡定,说I trust our system。等了几分钟,不断刷新,最终还是成功了,全场报以掌声,不过这个玩意依然是一个内部工具,在github上面有source code。

Ambari meetup仅看到了后面的部分,是一个哥们在介绍如何在VMM、Windows Azure上面部署Hadoop,和WA集成的挺不错,充分利用了WA的storage等服务,看来术业却有专攻,这个玩意Linux哥们是绝对不懂的。


大门口和工作人员


下午4点左右离开会场,请一个老外帮我在门口拍了一张和yellow elephant的合影

(文/ 钱岭责编/ 包研。在原文基础有所删改,欢迎在评论中纠错。)

原文: Hadoop Summit 2013 Day2:信息大爆炸

主流浏览器性能测试,IE10百分百完胜! TortoiseSVN的基本操作 再见,Fireworks! 投资者告诉诺基亚CEO:他们快没耐心了 直接拿来用!最火的Android开源项目(二) 营收奇迹:三消游戏Candy Crush Saga成功启示录 马化腾对话李连杰:移动互联网的能量有多大? UC与趋势科技携手,移动浏览器加固安全 乐视发布超级电视X60 售价6999元 巨头们抢滩或已结束?EMC掀起首场SDN登录战 CloudStack创始人梁胜:让中国软件走向世界 ArduinoDroid:让你在Android设备上开发Arduino 码农们的机器人:LEGO MindStorms EV3 详解 JavaScript 中的 this 对话PaaS平台dotCloud布道师:“轻量级”与“重量级”虚拟化 微软:谷歌企业生产力软件依然不行 IT旅途——程序员面试经验分享 17岁女高中生赢得编程马拉松大赛冠军 雅虎宣布开发新的搜索工具 创新用户界面 前谷歌高管给初入职场新人的14条忠告 业界良心 Facebook下一步将开源交换机 Google Glass:未上市先遇阻 TIOBE 2013年5月编程语言排行榜:Objective-C再度反超C++ 开发者需知的10类工具 林仕鼎:架构设计与架构师 跨平台工具火拼:Icenium与PhoneGap Build谁属王者? 索尼终于想明白了:PlayStation生态走向开放 高达10亿美元,Facebook为什么要收购Waze? Cocos2D-X成全球第二大游戏引擎 仅次于Unity 亲爱的苹果,能不能别让应用太廉价? 陈晓影:一位女海归曲折的拓荒故事 access一个日期时间字段是短格式的,用什么SQL语句改成长格式的? 怎样才能在主页中显示自己的qq是否在线?????? 有没有平面按钮控件 Interdev6.0 IDE 环境下无法使用MSDN access一个日期时间字段是短格式的,用什么SQL语句改成长格式的?? 大家来帮帮我想想?应该怎么样来删除呢!!!! 各位用VB.net的兄弟,请问你们使得是 Beta1 还是 Beta2 ? 迷周星弛的请来签名啊! 如何操纵RichTextEdit控件??? 我得到GIF图像的这一点的值,怎样得到它的正确的RGB值? 我想请问在CHTML(compact html)中如何对页面进行刷新。 各位老大,你们是如何找到工作的? 在VB.net中,如何实现VB6中的 set A=createobject("XXXX.XXXX") 诸位大虾救命,如何在EDIT控件中判断DBCS字符 !!求救!!对时!!! 在VC中使用Crystal report 8的问题 如何编写c程序自动对GIF图片设置大小 请教:鼠标在windows桌面上按键是否会引发某个事件? 查看DLL的输出函数 menu的问题 web的组件由什么来编写? 嵌入式数据窗口,怎样可以动态往里插数据窗口??? 在DELPHI中如何调用NETBIOS的API函数 AddNew 怎么用?- 怎么办那,啊? 问题标题前的绿色的对号是什么意思?是不是表示问题已经解决? 怎么学VC啊,菜鸟的菜菜的问题啊。 关于打印比较 提取汉字的拼音 四级挂了,给分,气死了 难题时时有,把它问诸位,不知哪位高手,今日肯帮俺------解决送个人照片(不知各位肯要否?) 刚考完英语四级,来这里发泄一下。同时送上300分! PHP和JAVA如何通讯? 请问哪里有 soft-ice for 2k 如何将字符串的首尾空格去掉??? 1分钟求解:与HEX()对应的把16进制转换成10进制的函数是什么? 怎样判断某个控件是button、edit还是combox、listctrl......? VB.NET(VS.NET)/Beta2正式版下载地址与安装方法 有人用VsPrint吗? delphi、vc、c++ builder三者,哪一种是你的最终选择,why? 第一次上来灌,宋粉 关于C编译后的几个文件后缀名. 请教各位,主要用于办公和工程预决算,用AMD的Duron+km133(集成savage4)行吗? delphi、c++ builder、vc三者,哪一种是你的最终选择,why? 程序结束时,窗体和内存的释放问题 c++ builder、delphi、vc三者,哪一种是你的最终选择,why? 唉,牙齿好疼 高分求语音系统算法! 你认真思考过你的共享软件为什么赚不了钱吗? 请问在那里可以找到ratioal2001的破解 在ado中是调用大型数据库是sql的select from效率高还是调用存储过程效率高 若方程组3x+y=1+3a,x+3y=1-a的解满足x+y=0,求a的取值 已知二次方程3x²-(2a-5)x-3a-1=0有一个根为2,求另一个根拜托各位了 3Q 方程x+1分之1等于x-1分之2的解为 a若方程组{3x+y=1+3a x+3y=1-a的解满足x+y>0,则a的取值范围是( ) 已知x的平方加3x-1=0求x的平方+x的负二次方 x+1分之2等于2是 已知方程组3x-4y=3a-6,x+3y=2a+7的解x,y都是正数,且x的值大于y的值,求a的取值范围 已知关于x的二次方程x^2-(k-1)x-3x-2=0的两个实数根的平方和为17,求k的值已知a,b分别满足a^2-2ma-m^2=0和b^2-2mb-m^2=0,则b/a+a/b的值是多少? 关于x的方程a/x+1=1的解是负数,则a的取值范围是 已知2x+3y=a+2,且3x-4y=3a-1,若XY =0,求a的取值范围 .不是xy=0。应该是xy>=0。 a为何值时,方程2x+1/3a=x-1的解满足2x+3=7?a为何值时,方程2x+1/3a=x-1的解满足2x+3=7?5点之前,帮帮啊 若关于x的分式方程x+2分之2-x+2分之a等于1的解为负数,则a的取值范围是? 方程4(3-2x)+3a+2=7-4a-3(x-5)的解不比2a+1小,求a的取值范围 已知关于x的方程2x-3a=1的解是x-3,那么a的值是 关于x的方程x分之1等于1+x分之2+a的解是负数求a的取值范围 已知关于x的方程4(3-2x)+3a+2=7-4a-3(x-5)的解不小于2a+1,求a的取值范围kkkkk 已知关于x的方程x-4/2-2x-3a/5=1和2a+x/4-x-2/3=1有相同的解,则解是 如果关于x的方程:(1-m)x=1-2x的解是负数,则m的取值范围是—— X的2倍与9的和等于-3,方程是 已知关于X的方程4(3—2X)+3a+1=5—4a+3(X—5)的解不比2a—1小,求a的取值范围? 已知方程2x+3a=4 与3x+5=2的解相同 a= 十x-3等于9方程式求解答 已知方程4(3-2x)+3a+2=7-4a-3(x-5)的解不比2a+1小,求a的取值范围 关于x的方程5x-3a=2x-7的解是负数,试求a的取值范围. 一个数的二分之一比这个数的25%多10.这个数是多少?方程解 已知关于X的方程3a+x=a\2x+3的解为x=4,求a-2a+3a-4a+5a-6a+ +99a-100a的值 如果关于x的方程5x+3a=2x-7的解是负数,试求a额取值范围 根据下列条件列出方程:一个数的5倍比这个数大10;一个数的5倍与9的差等于这个数的一半;某数比它的7倍小2一个数与4的和的3倍比这个数大5 已知关于x的方程4(x+2)-2=5+3a的解不小于方程(3a+1)/3=a(2x+3)/2的解,求a的取值范围. 如果代数式关于x的方程5x-3a=2x-7的解是负数,试求a的取值范围我算出来是a<3分之10 10分之3和5分之1的和等于一个数的4分之3,求这个数.(用方程解) 写题即可计划产量:实际产量:24吨(比计划增产3分之1)甲,乙,丙各有若干张邮票,甲的邮票是乙的3分之2,乙的邮票是丙的4分 已知关于x的方程3(x+2)-2=7+3a的值不大于(5a+1)/5 x=(2x+3)a/2的解,求a的取值范围 解方程 (x+0.8)÷6=7.2 求方程的解 10/9X-66=6/1X 这个方程怎么解? 已知关于x的方程ax^2-(2a+1)x+3-3a=0的解都大于1,则a的取值范围是答案是0≤a<0.5老师是用△≥0,韦达定理做的 2号答对x道,10x-(8-x)*6=64,x=7; 方程 怎么解 x-5/1x=10/7这个方程式怎么解 如果关于x的方程3(x+4)-4=2a+1的解大于方程4a+1/4 x=a(3x-4)/3的解,求a 的取值范围 6,7,8三题,用方程解 方程10.1X加38.6=54.3加9.55怎么解 已知关于x的方程:4(x+2)-2=5+3a的解不小于方程(3a+1)x/3=a(2x+3)/2的解,求a的取值范围. 当K为何值时,分试方程x除x-1+k除x-1=x除以x+1有增根急 3分之2x÷5分之3=15 解方程 x+4分之1x=7.5 已知方程2/3x-3k=5(x-k)+1的解为非负数,求k的取值范围 当k的值等于____时,关于X的方程k除以(x-3)+2=(4-x)除以(x-3)会产生增根 若关于x的方程x+2=a和2x-a=3a有相同的解,求a(1/2)某学校在援助边远山区活动中,原计划捐书3000册,由于学生的积极响应,实际捐书3780册,其中初中部比原计划多捐了20%.高中部比原计(2/2)划多捐 关于x的方程2/3x=5(x-k)+3k+1的解是负数,求k的取值范围. 关于x的方程 x-8分之x-7 - 8-x分之k = 8 ,有增根,则k的值?k的值为什么是-1?怎么求? 关于x的方程2x-3a=1的解是x=a,则a=? 已知关于X·y的方程组2x+y=2k+1 3x-2y=k-1的解满足x-3y<5求k的取值范围 怎么算 若方程1+2k除以9-(x的平方=k除以x-3有增根,则k=? 诺关于X的方程x+2=A和2X-4=3A有相同的解,则A=?急 当K为何值时,方程组3x-y=2k和x+2y=3k-14的X、Y互为相反数? 当K是什么值时,分式方程6除以x-1=x+k除以x(x-1)-3除以x有增根? 已知方程组2x-3y=2-3a,3x-4y=2a-1的解满足x>0,y 已知关于x,y的方程组 2x+y=2k+1,3x-2y=3k-9的解满足x小于y,求k的范围. 三分之二x加七分之五x等于五加七分之25 已知方程组{2x-4y=2-3a 3x-4y=2a+1 的解满足{x>0 y 已知二次方程3x²-(2a-5)x-3a-1=0有一个根为x=2,求另一个根并确定a的值 若方程3乘以(2x-1)等于2-3x的解,与关于x的方程6二等于二乘以括号加三的解相同,则已知a—3绝对值+负b+5的绝对值+c—2的绝对值等于0则,2a+b+c的绝对值等于-九分之五
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn