说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Hadoop Summit 2013见闻:创业与Hadoop 2.0不可阻挡

HTML文档下载 WORD文档下载 PDF文档下载
Hadoop Summit 2013正在美国进行,这不仅Hadoop生态圈的盛宴,也是各路玩家的战场。不仅有Sqrrl、Wandisco、GridGain等新创业公司涌现,也能看到核心玩家Cloudera和Hortonworks互相角力。本文转自钱岭的博客。

Day 2:

今天参加了3个keynotes,42个session中的8个,和一大堆厂商讨论技术,真是信息大爆炸的一天。

Hadoop从诞生到今年已经有7个年头,今年出现了很多新的变化:

1、Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力(Gartner)。


几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入,Teradata还公开展示了一个一体机;另一方面创业型Hadoop公司层出不穷,这次看到的几个是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了开源的或者商用的软件。

2、Hadoop生态系统丰富多彩,但是核心已经被Cloudera、Hortonworks牢牢掌控,基本上没有撼动之可能。今年Hortonworks的宣传是100%open source,Cloudera只好干着急,谁叫他不开放Cloudera Enterprise Manager的源代码呢?Hortonworks介绍Ambari的时候,会场至少5个Cloudera的工程师在仔细聆听,有个小伙不停地在iPad上面速记,竞争可见一斑。个人估计,Cloudera早晚将Enterprise Manager开源。Hortonworks目前Ambari的committer是20+,Contributor 50+,后一个数字可能有些水,但是第一个是没有问题的。目前每天有update,1.25版本比1.0x版本明显好用了。其他大小厂商的生存之道就是搞插件,如Wandisco、VMware、Mellanox、GridGain,而且插件均是不用修改内核的外挂,这些厂商是没有能力动内核的,持续投入可能会有一些作用,如VMware,但是一线Hadoop厂商是绝不会松手的。

3、Hadoop 2.0转型基本上无可阻挡。Hortonworks的VPArun在介绍 Tez的时候,给出了很多有趣的PPT,主旨就是一个:MapReduce已经是昨日黄花, Yarn将是未来并行计算的基础设施。我自己还没有使用Yarn,但是Hortonworks已经围绕Yarn开发了很多工具,尤其是Tez,这个玩意可以提升查询计划的执行时间,PIG和Hive将被改写并重装上阵。Hortonworks虽然没有搞出来 Impala,但是从更底层的技术上包围Impala,两个老大的布局和较量始终没有停止。

 


4、SQL over Hadoop是一个重要的技术趋势。去年Hadoop World时,MPP还吹嘘自己如何牛X。但是Google发布了 Dremel和 PowerDrill,EMC搞出来 HAWQ,Cloudera搞出来Impala之后,所有的MPP都开始反思自己的技术路线。和Parccel技术人员(感觉是售前)讨论了一下,她找出一张卡片说Parccel速度是Hive的100X,领先Impala10年。我感觉这个说话很快就会失灵,首先是Hive的优化一直没有停止,Hortonworks搞出来Tez、 Stinger(与Facebook合作)。虽然MPP领先Hadoop很多年,根据80:20原则,如果HadoopSQL只做用户需要的20%特性,那么这个差距最多2年,2年内,HadoopSQL将在部分领域超越MPP。MPP企业的出路就是学习HAWQ。列存储也是推陈出新,近期主要是ORC(微软和Hortonworks合作)、 Parquet(Twitter和Cloudera合作),有木有看出来两个巨头PK的身影?有木有看到抱团PK?这些技术在测试中均显示出很大的优势。


5、IT和开源组织合作广泛。这个不仅仅存在IT厂商和开源之间,实际上开源之间也在密切合作。不太清楚合作的内部信息,但是基本上有两种模式:产品/软件交叉集成(含管理系统集成);合作开发和推广。在技术方面就要求软件有很好的架构,提供开放的接口,这一点Ambari的设计和俺对HT的要求一模一样,可以俺未能如愿,而Amabri已经开发了好几个版本。

6、技术上看,大数据和云的整合也是一个选项(注意,不是趋势,而是选项)。今年新增了OpenStack相关议题,一些集成商和厂商也提出了云上Hadoop的适用场景。这个并不是适用于所有人,但是部分用户可以因此获益。Netflix是一个典型的例子,他们的实例都在AWS上面,显然他们的Hadoop是基于虚拟机的,和一个Netflix小伙子(日本人)交流,他们大约有2000个虚拟实例,基于 EMR,并开发了Gennie管理系统。


Day 1:

由于时差,大早上5:00左右就起来了,早餐并干活后就跑到会场去了,第一天是meetup、BOF和布展,好几个感兴趣的Meetup在时间上重叠,上午听了YARN和 Accumulo,下午听了HBase和Ambari。其他的还有包括data scientist、System Integration、PIG、Hive等众多meetup,也就只好放弃,好在很多内容都会在今天上午的主题演讲中出现。

YRAN的Developer Meetup是几个Hortonworks的哥们主持的,先是收集大家的问题,主要包括intro、roadmap、API、compability、 Storm、HBase等内容,以讨论形式为主,不过由于参加者中只有少数是Yarn Developer,也会有有很多基础的问题讨论。有个Yarn的用户提到jar包的依赖性和命名规范等问题,这个目前Yarn目前并未考虑。

Accumulo是NSA(PRISM的源头)发布的开源系统,基本上类似HBase,但是提供了Cell级别的安全访问控制,在内部实现方面可能也有些不同(需要看代码才行),提供了Iterator API和一些批量处理的API。介绍者有2人,一人估计是 Sqrrl的,一人是HortonWorks的,感觉里面不少人都互相认识,这个也不奇怪,要是在中国,这种meetup肯定也会遇到很多熟人和前任同事啥的。Sqrrl是一个基于Accumulo的商业化软件和服务,提供了图分析和计算的能力,感觉是个挺不错的东西,可惜不是开源的,掩饰着给出了一些类SQL,输出结果是可视化的图形,而且可以在图形上进一步操作。


HBase meetup貌似也是Hortonworks的人主持的,一个印度哥们代替演讲者介绍了一个基于Yarn的HBase部署工具 Hoya,这个玩意不是必备工具,但是对于需要在同一个Hadoop集群上部署不同HBase版本进行测试同志、或者需要按需使用HBase进行分析的同志使用。现场演示看了一个Yarn集群上部署N多HBase的演示,只需指定配置文件和几个参数就可以部署。在演示HBase集群停止再启动的时候,戏剧性的场面出现了,只有master启动了,3个region server都没有出现,全场哗然,印度小哥们很淡定,说I trust our system。等了几分钟,不断刷新,最终还是成功了,全场报以掌声,不过这个玩意依然是一个内部工具,在github上面有source code。

Ambari meetup仅看到了后面的部分,是一个哥们在介绍如何在VMM、Windows Azure上面部署Hadoop,和WA集成的挺不错,充分利用了WA的storage等服务,看来术业却有专攻,这个玩意Linux哥们是绝对不懂的。


大门口和工作人员


下午4点左右离开会场,请一个老外帮我在门口拍了一张和yellow elephant的合影

(文/ 钱岭责编/ 包研。在原文基础有所删改,欢迎在评论中纠错。)

原文: Hadoop Summit 2013 Day2:信息大爆炸

VB数据库编空字段的处理 VB数据库多字段记录的录入 VB数据库记录查询四法 vb应用程序访问sql server方法探讨 VB中超长OLE数据库字段的操纵方法 VB中将数据转换为数据库文件 VB中远程数据库的访问 Visual Basic 的数据库编程 Visual Basic数据库数据的选项录入及选项增减与编辑 把资料输往Excel来列印-VB资料 报表中的滚动问题-VB资料 编写Connect Strings-VB资料 表或查询是否存在-VB资料 不创建DSN直接在程序中使用ODBC数据源-VB资料 不用 DATA 控件操作数据库文件 -VB资料 不用 EOF 以加快记录循环-VB资料 处理Select语句中的单引号 -VB资料 断开所有的数据连接 -VB资料 访问VB外来数据库 非access数据库在vb中的编程及应用 关闭程序中所有创建的数据库连接。 -VB资料 关闭所有的数据连接 -VB资料 关于数据报表的打印设置-VB资料 VB建立、改变及重构Access数据库-VB资料 结构化查询语言(SQL)详解之一-VB资料 利用VB使ACCESS数据库在网络使用中保持同步 返回 连接Data到多个表单-VB资料 列出 SQL Server 数据库中所有的存储过程-VB资料 列出MDB档当中所有table的名称-VB资料 您想知道有谁正在使用您的 Access 文件吗?(多人环境中)-VB资料 主题:浅谈Excel 的VB编程 帮帮忙啊,关于图的遍历 一个form上有两个dbgrid,怎么判断我现在的焦点是在哪个 dbgrid上? 送给8。15继续在网络中漫步的朋友们的礼物! 关于数据库的使用 一个有关listview的问题,一直没解决,急! 有没有人装过MINIX啊 为什么我在查询分析器里执行时,没有时间限制,而在控制台里用同样的代码建一个试图或写在存储过程里都会超时呢········· 中秋快乐!!!!!!!!!大家进来看看,小弟有些问题。 网站运行一会儿IIS自动不运行了 什么是SCSI卡设备呢?有何作用? 未来的软件架构和技术 哪里有VB好界面下啊,谢谢 推荐给希望了解应用程序开发全过程的“初学者”一本书!!!!!!!!! 过节了!谨以些分献给坚守在灌水第一线的朋友们~~(一) 未来的软件架构和技术 zalyer接帖 过节了!谨以些分献给坚守在灌水第一线的朋友们~~(二) 数据库保存图片的问题 js赋值后提交,怎么在servlet中value 为空?? SendMessage参数问题, 过节了!谨以些分献给坚守在灌水第一线的朋友们~(三) 未来的软件架构和技术 ▁▂▃▄▅学ASP一个月了,现在学SQL SERVER,散分100,只为交友!▅▄▃▂▁ 大家好 ! 中秋快乐 顺便提个问题 ? 在线等....顶也给分拉...Explorer执行了非法操作该窗口即将关闭? 过节了!谨以些分献给坚守在灌水第一线的朋友们~(四) 过节了!谨以些分献给坚守在灌水第一线的朋友们~(五) excel中数据透视表? 了解:今年高程考试有没有新增内容,因为去年就新增了CMM、C++、OA办公自动化软件开发等知识,事先也没有通知各位考生。 绝对好文---------------人力资源“总奸”的自白-------ZT 中秋检举 一个恶意网站! 用PHP上传文件到LINUX服务器,结果文件用FTP软件删不掉 有做网格控件经验的请进 请教一个数据库的小问题 各位高手帮帮我! 高手来帮忙!!! 菜鸟提问:怎样从HBITMAP获得BMP的尺寸?(SDK) 请帮忙。 请问一个关于photoshop的问题,多谢指教100分 vb excel 关于MFC多文档在何处放置自已的初始化文档的代码? 今年又是一个人过中秋,终于想找个GF了! 电影画面倒置是怎么回事? 如何将pbyte指向的byte数据传递给byte数组或char等 送分 为中秋节还工作在自己岗位上的朋友散分! 送分 cgi---這裡有多少個寫法?? 送分 gcc编译好的程序怎么运行阿? 关于多文档的问题:如何固定视窗大小? 亚瑟3 终极对决 ARTHUR ET LA GUERRE DES DEUX MONDES怎么样 若()若()填入一组反义词 有()无() 反义词反义词哦深()浅() 也要反义词 Le ministre de l’Education a publié un décret (modifier)_____les dates des vacances scolaires.A 要怎样把数值设置成保留两位小数呢 99999改成万位的数保留两位小数 如果一个代数式里面有不止一个数字因数,那它的系数是什么? 马面人身是山海经里的怪物 对吗这句话?拜托各位大神 气泡上升时内部气压气泡在上升过程中为什么气泡内部气体压强减小?气泡上升,体积变大,内部压强不是应该变大吗? 饮用水里有气泡从净水器里接的过滤水接的时候没问题,静置一段时间之后杯壁附着着密密麻麻的小气泡.幸好我没有密集综合症.是水里含氧释放出来的吗?净化过的水和自来水口感也不一样. 日式料理或将成非物质文化遗产 已通过中国周边的阳关道和新亮点法女艺术家创“女版兵马俑”讽刺重男轻英皇室5人出席小王子受洗 教父母选择韩首尔大学医院工会罢工 抗议大搞扩建福岛核电站排水沟雨水辐射量激增 创下美警方误将中国灯笼当手榴弹致地铁站关“中国动力”吸引辛格访华中国与中东欧青年政治家论坛在京开幕沪指重挫1.25% 大消费普跌银行独专家称地下水九成遭污染 修复一亩地最耄耋老人痴迷作画 84岁拜师当学徒公交卡年费10元 达城市民:“我们不677万人次搭乘成都地铁纪委随机抽查 广安节后上班情况良好贷款专家 快贷教你快速贷款 贷款利息南充 女孩千里见网友 民警帮忙找回她别让儿童抽动症误了孩子一生幼儿园娃娃每天早上学“逃生”论小学数学教学充满生活情趣大雾突袭达州 需预防呼吸道疾病体彩开奖极品术师王朝教父地球最强修真美人图录界皇史上最牛召唤召唤萌战记网游之三国王者卡术炼金师重生之成为云中子我是夸梅布朗南湖秋月园旅游全福讲寺旅游怪楼旅游客家文化城旅游五龙客家风情园旅游蒋经国旧居旅游闵行滨江湿地公园旅游永兴岛旅游财神堂旅游荐福寺旅游情侣园旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘