说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线

HTML文档下载 WORD文档下载 PDF文档下载
连城讲到,Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了分布式系统和函数式语言,目前Spark的覆盖面已然相当广泛。他称Spark的独门秘籍便是“打造结构上一体化、功能上多元化的高效数据流水线。”

2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。

在Spark技术峰会召开前夕,记者和本次Spark峰会的演讲嘉宾连城做了一次简单的沟通,他就Spark技术优势、Spark技术发展、企业应用Spark遇到的困境等话题分享了自己的看法。

连城

Intel物联技术研究院研究员,Spark contributor
目前专注于以Apache Spark为主的大数据处理平台,即将加入Databricks。


以下是记者采访原文:

- 什么原因吸引你钻研Spark技术?

最初接触Spark纯粹是出于个人兴趣。我感兴趣的技术方向主要有二,即分布式系统和函数式语言。Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了这两个领域。Spark提供的Scala API本身也很类似于一套分布式、惰性求值的纯函数式语言。然而后来,越是深入探寻,便越是被Spark所吸引。Spark背后的不少想法在先前的系统中或多或少都有所体现,但Matei Zaharia博士众人非常巧妙地集众家之所长,融会贯通,克服了众多旧有特化系统中的各种缺陷,浓缩提炼出了RDD(Resilient Distributed Dataset,弹性分布式数据集)这一高度通用的抽象结构。围绕RDD这一核心,AMPLab团队以扎实的工程功底和开放的心态,打造了全新的Spark生态圈,又以Spark为核心提出了极富创意的BDAS(Berkeley Data Analytics Stack,伯克利数据分析栈)。在研究成果的工业转化方面,AMPLab团队可谓典范:他们不仅是富有远见的科学家,也是功力深厚的工程师,同时还扮演着开源社区中循循善诱的良师益友角色。正是基于以上这些原因,去年得知Spark核心团队创办Databricks后我便力求加盟,并最终幸运地得偿所愿。能与这样一群杰出的同事工作,本身就是一件令人非常兴奋的事。

 - 对于解决哪些问题Spark独具优势?

随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业。如:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等等。在Spark出现之前,要在一个组织内同时完成数种大数据分析任务,就不得不与多套特化系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储(ETL)。AMPLab在介绍以Spark为核心的BDAS时常说的一句话是:one stack to rule them all,也就是说可以在一套软件栈内完成前述各种大数据分析任务。相对于MapReduce上的批量计算、迭代型计算以及基于Hive的SQL查询,Spark更是可以带来一到两个数量级的效率提升,在传统MapReduce近乎不可能的交互式即席查询也因而得以实现。这种“全能”特质,很大程度上源自RDD这一合理抽象和AMPLab/Databricks团队扎实的工程功底。当然,Spark并不真的是全能的。RDD模型适合的是粗粒度的数据并行计算,而不适合细粒度的、需要异步更新的计算;对于这些计算需求,如果要追求极致的性能,还是需要求助于特化系统(如图计算领域的GraphLab等)。但就现有成果来看,Spark的覆盖面已然相当广泛。简而言之,Spark的独门秘籍便是打造结构上一体化、功能上多元化的高效数据流水线。

- 目前企业应用Spark最大的困难是什么?

据我有限的了解,最大的困难还是人才方面的短缺。无论Spark还是Spark所使用的Scala,都还是相当年轻的事物。虽然它们各自都已经吸引了大批富有远见和才华的开发者,但不得不说距离大规模普及还有相当长的一段路要走。另一个相关问题是Spark方面的参考材料还不多。目前社区内开发者们主要的学习方式还限于阅读有限的官方文档、源码、AMPLab发表的论文,以及社区讨论。所幸Fast Data Processing with Spark一书的中文版已经在翻译中;由O'Reilly出品,来自Spark核心团队的Learning Spark今年也有望面世。

- 根据您的了解,目前Spark发展的情况如何?

评价一个开源项目发展情况的重要指标之一就是该项目的贡献者人数。对于这一点,在去年12月份的Spark Summit上,Spark的创始人Matei Zaharia博士十分自豪:“过去六个月内,Spark的活跃开发者人数超过了Hadoop MapReduce!”那时Spark贡献者总人数是103人;而今四个月过去了,根据GitHub最新的统计,这一数字已然增长到了153人。特别值得一提的是,在最近发布的几个版本中,华人开发者的人数飞速上升。Spark项目主站中Powered by Spark页面中不断增长的公司列表也是Spark在工业界稳步推进的有力证明。这份列表中不乏阿里巴巴、百度、点评、搜狐等中国企业的身影。如前所述,Spark的推广还任重道远,但其良好的向下兼容性、相对传统方法的显著优势,以及来自社区的巨大热情令我非常看好Spark的发展前景。

- 请谈谈你在这次大会上即将分享的话题。

 本次大会上,我将为大家介绍新近加入Spark主线版本的alpha组件Catalyst/Spark SQL。在去年的Spark Summit上,Catalyst的主要设计者Michael Armbrust曾将Catalyst描绘为一套简洁强大的SQL查询计划优化框架。随着时间的推移,Catalyst已经逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。后续Catalyst/Spark SQL有望成为Shark的新引擎。Catalyst/Spark SQL的特点主要包括: 向下兼容HiveQL,可以操纵现存的各种Hive数据格式。 支持针对原生RDD对象的关系查询;用户既可以选择HiveQL,也可以选择Catalyst提供的精简SQL子集或Scala DSL,从而完全摆脱对Hive的依赖。 在执行效率方面,Catalyst内建的查询优化引擎可以对用户编写的HQL/SQL查询进行有效优化,从而有效减轻用户在Spark应用性能调优方面的负担。 借力于Scala 2.10新近的反射能力,Catalyst实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。

 - 哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?

所有正在应用Hive、Shark等SQL data warehouse的听众都应该会对这个话题感兴趣。相对于Hive,和Shark一样,Catalyst可以提供一到两个数量级的性能提升,实现真正的交互式大数据即席查询。相对于Shark,Catalyst提供了针对原生RDD对象的关系查询支持,并且在保留Hive兼容性的前提下进一步解耦了对Hive的依赖,精简了代码库;全新的执行计划优化和代码生成框架简洁清爽,为更进一步的性能提升打开了更大的想像空间。


更多精彩尽在2014年4月19日中国Spark技术峰会,3月31日前购票订票可享受最低票价优惠。


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 ! 
黑帽大会演讲中国第一人:从攻到防,从白帽黑客到创业者 15个步骤创立技术公司,并收获千万用户(完结) CTO容易犯的三大错误 谷歌艺术计划:互联网能否取代真实的博物馆? Hadoop技术沙龙:Hortonworks技术研发总监展望Hadoop 2.0 Marissa Mayer:雅虎月活跃用户增长了20%达8亿 移动用户3.5亿 气死偷车贼:脑电波防盗技术,让偷车贼无计可施 TIOBE 2013年9月编程语言排行榜:Transact-SQL首次进入前十 前Oracle总裁Charles Phillips:商业软件领域的“乔布斯” 留住你的用户:8款第三方移动推送服务 人气最旺:主流移动应用创建工具大合集(一) 不要强迫用户注册,请让他们先试用产品 Eve:基于Python的REST API框架 想扩展你的数据库吗?那么先了解一下I/O 白帽黑客将现场爆料Android系统及框架漏洞 9月13日:程序员节,一起来过节吧! 欲与Siri、Google Now比高低:微软开始打造个人助理Cortana 【开源专访】禅道创始人王春生:覆盖项目全周期,回归管理的本质 携程无线创业者大赛成功落幕 梁建章为头名“快展”颁20万奖金 Bug报告:小角色,大用处! iOS开发者必备: 五大编程类工具 多核优化软件MCx释放EMC VNX闪存潜能 手把手教学:详解HTML5移动开发框架PhoneJS 快速学习新技术的几条建议 研发周报:Angular.js or Ember.js 谁将成为Web开发的新宠? 10款免费且开源的项目管理工具 Greg Pass:拯救Twitter的无名英雄 Cassandra杀回数据库排行Top 10,及需求Java 7的2.0版本 安全专家王清将揭秘“大数据时代的大安全” BrainSpace:跟传统搜索说再见 艾普网络的OpenStack实践 用xsl+xml给公司做了个网站 关于 alert 的疑问 使用ADO如何对dbf表进行pack 毕设的最后一个问题,请赐教!谢谢 请教:如何判断指定的文件夹下是否存在指定的文件. 事务的概念和特性是什么? 从程序员走向项目经理?? 编码问题,急!!! 在改变窗体大小的时候,如何让windows media player9 自适应窗体大小阿! 什么时候会触发window.onunload事件? 回答有分。java web start 是做什么用的?一安装了jdk1.4就有这个,可是我从来没用过? 为什么我用水晶报表时老告诉我未将对象引用到实例,高分 对引用的理解? vc++要交作业了,谁能帮一下忙啊 关于CSS!! 高程涨价了~~~~~~今天报名的我,身上只有111块~~~`结果只有1块了,坐车回家,身无分文,5555555 JBuilder7.0在Linux下的中文支持? 高分求救(急),在线等,请高手帮忙 一次最多只能给100分。 Apache2.0.46与tomcat-4.1.24整合问题 各位来看一下我写的这点东西,能不能找到个工作呀 比较一下:C++primer The C++ programming language 和 thinking in C++。不要只说那本好,只看过一本也近来说说看法!! 高手来帮助我阿 浏览器隐藏问题! 那位给我一个用 C# 操控注册表的详细例子或说明…… 已经辞掉了版主职务了,一个星期没有上网,这回散点分给大家. 有没有变量可以存储任何类型的图片对象? Exchange 2000 Lotus connector 大侠帮帮我! XP内存消耗问题 为什么SQL存储过程在SQL QUERY ANALYZY可以顺利执行完一个从1到1500的循环,而在PB7.0中调用时却... 如何设置按钮控制程序运行,具体看贴 网页图片显示问题(急,帮帮忙哦,在线等!) 请问一个关于visual studio.net的问题 在线求解,很急,谢谢 程序是SQL Server2000+Delphi6的三层结构,打包问题,大侠请帮忙!(200) ¥¥火星人都不会的问题!巨难!欢迎各位! 这里有没有兄弟写过“万邦“图形采集(winbond)的应用程序没有 关于输入法 为什么ASP页面关闭后,session中的值还存在呢? 到底有没有官方出的VS6.0中文版?? 请问怎样给一个buffer中所有数据清0 test 数据采集问题,高手指教!!!急 为何我修改了打印纸尺寸但不起作用? 请问大家现在MCSE的题目变了没有啊? 共同学习 高人指点一下 DataGrid如何实现如下功能? 如何在图片框中按鼠标时知道当前鼠标在图片框中的坐标?谢谢! 【骂人】destroy(只想灌的爽)进来 the IFRC reserve the right to award part bids, 请问award part bids 如何翻译,谢谢~ x^2-5x+7用配方证明代数值为正,并求此代数式的最小值好的话会加的 关于均匀带电球面的场强分布在球面的内部场强为零 在球面的外部的场强是有计算公式的,那么刚好在球面上的场强是多大呢? 请问3ds max怎样在渲染时只渲染模型的线框图? 对于代数式x^2-2x+3,通过配方,能说明它的值一定是 均匀带电球面表面的场强是球面本身,搞不清楚唉, 3ds Max 怎样渲染线框图 证明:无论x取什么值,代数式x^2-2x+2的值大于1快.快快.快快快... 马斯洛在需要层次理论中将需要分为五级: 如何进行自我防卫及战胜挫折 什么叫物理爆破 中国有几台正负电子对撞机RT 自点A(-3,3)发出的光线l射到x轴上,被x轴反射,反射光线m与圆x2+y2-4x-4y+7=0相切,求l与m的方程请问可不可以先把l设出来y-3=k(x+3),因为是反射所以m与l的斜率互为相反数,所以m为y-3=-k( 用配方方法证明:代数式x平方-2x+2的值不小于1 9. 北京正负电子对撞机历史和现状?主要成果有哪些? 还是很不明白为什么零线同大地之间没有电压,最好能画图说明如果说大地是一个大导体的话?欧洲和我们国家是在同一块大陆上,他们国家的家庭电压是300多,那不是同样有电压差么? 什么叫爆破作文 北京正负电子对撞机使质子达到的能量单位GeV 100匝的线圈在磁感应强度为0.1T的匀强磁场中旋转,面积为500cm,求瞬时感应电压极大值 中国大约有多少核导弹?拜托各位大神? 用英语翻译:他每周什么时间来看你?每个星期六 100匝的线圈在磁感应强度为0.1T的匀强磁场中旋转,转速为50转每秒,面积为500cm,求瞬时感应电压极大值 中国究竟有多少枚核导弹呢大神们帮帮忙 北京正负电子对撞机在哪里?对外开放吗?物理书上提到了,但是百度地图和百科都没有详细地址啊.只有百科提到了一点点关于位置的信息,但是在地图上却找不到.确实存在,是否对外开放? 3s是什么 日本有核弹吗大神们帮帮忙 我现在要做一个测试工装的短路保护电路.有100来个报警器同时放在一个工装架上进行老化测试,当一个一个放上去过程中其中一个短路我能及时发现他,并且拿下来之后不影响其它报警器的测 全波整流电路的正向平均电流和最大反向电压的公式是什么,和全波桥式整流的一样吗? 求鸡胚骨骼肌的详细发育过程,英文的也行! 易拉罐破碎机刀片磨损的原因是什么? 单相全波和桥式整流电路,若RE中的电流相等,组成它们的逆向电压(B).(A)相等; (B)单相全波整流比桥式整流大一倍;(C)桥式整流比单相全波整流大一倍; (D)单相全波整流比桥式整流大两倍.为 核弹怎么造出来?真实的核弹怎么造出来? 大型正负电子对撞机是什么东西? 形成整流接触的几种方法 鸡的生长过程描述清楚 世界各国的正负电子对撞机以及它们的应用? 光从一种物质到另一种物质,将发生 和 现象 什么叫欧姆接触和肖特基接触?那肖特基接触呢? 酸性物质如碳酸对鸡胚发育有没有影响 谁知道3D MAX的发展过程? 请问各位,欧姆接触与肖特基接触有什么不同?如何区别? 为什么说狗嘴吐不出象牙 难道人嘴里能吐出象牙感觉这话说得真是很奇怪. 光究竟是现象还是物质如果是现象为什么会被黑洞吸收,如果是物质为什么不会在光速运行下被分解? 在密封铁罐内一半是水,一般是油.加热后会怎样? 为什么可将病毒接种于鸡胚上? 如果光不是在一种物质中传播,会发生什么现象 商务合同each Party shall keep confidential all Improvements that are disclosed by the other Party 国产甲型H1N1流感疫苗系采用世界卫生组织(WHO)推荐的甲型H1N1流感病毒株接种鸡胚,经病毒培养、收获病毒 光是不是一种物质?首先想知道它究竟是不是一种物质.是或不是.还想具体了解下光 We are e____to see each other at the party 选一种你最熟悉的动物,运用一至两种说明方法介绍它的外形和生活习性? 我想自学一们外语,是西班牙语还是葡萄牙语的前景好? 道别晚会结束后,我们互相问候:____ ____ ____ ____ of the ____ ____,We____ ____ ____ each other. 回忆作者描写麋鹿的写作方法,从外形特点、生活习性、等方面向大家介绍一种自己熟悉的动物回忆作者描写麋鹿的写作方法,然后搜集查找资料,从外形特点、生活习性、科学价值等方面向大 西班牙语和葡萄牙语哪个好学,就业前景好啊、懂行的朋友帮我从各个方面分析下. 为什么电源电动势E不断变大,电容器就不断充电电源和电容器相连 10KV高压整流变压器都做什么实验 This isn't something I wanted to be right about.中文翻译 and which by the exercise of reasonable diligence,said party is unable to prevent provided that 哪些病毒不能通过鸡胚培养 纽约遭飓风袭击一周年 数千灾民仍无家小猫将斗牛犬尾巴当做逗猫棒玩 网友直土耳其欧亚海底铁路隧道运营第一天就突76件日本国家重要文化财产下落不明 日本一男子弑母弃尸 藏尸冰箱月余终败美在联合国驻地部署情报人员 拦截各国英国一教师对学校过敏 不能摸文具数据显示日本近5年间借智能手机偷拍案阿姆斯特丹应对土地资源不足兴建水上住恐怖梦游:女子睡梦中自残 醒后发现全中国载人空间站命名“天宫”货运飞船为新华网:织牢保障困难群众基本生活的“长沙机场再受“诈弹”威胁 公安部门正韩国海域15日沉船事故一失踪中国船员美国警察向手持玩具枪男孩10秒内连开大图们江倡议协商会力促区域合作人品爆发!美国男子中611万后仅隔两日本“菜鸟”教师多:不会点火柴不敢拿土耳其欧亚海底铁路隧道仅运营第一天突甬台温高速一客车冲落路基 1死5伤日本一女大学生因在公园拍摄成人视频被福州市两干部被开除党籍和公职三十年静心雕花,成就“喜宴美容师”哈里森·福特险撞机陶瓷“升级”生态生“黄金”惊网语录罹难者遗体暂定19日火化拼搏赶超 重构大武汉开放格局生态得绿 林农得利在美看华人新年游行:中国文化与西方传风电项目海沧港集装箱吞吐量创单月历史新高配备自主“神经中枢”河北省工会创业就业扶持专项行动推进会大胆表达你的电力班的“草根发明家”省领导调研国有企业党建工作晋江安海,延续文脉聚合力“世界名鸡”背后的脱贫故事用生态方法治理水系阿斯塔纳会谈延期举行
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘