说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线

HTML文档下载 WORD文档下载 PDF文档下载
连城讲到,Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了分布式系统和函数式语言,目前Spark的覆盖面已然相当广泛。他称Spark的独门秘籍便是“打造结构上一体化、功能上多元化的高效数据流水线。”

2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。

在Spark技术峰会召开前夕,记者和本次Spark峰会的演讲嘉宾连城做了一次简单的沟通,他就Spark技术优势、Spark技术发展、企业应用Spark遇到的困境等话题分享了自己的看法。

连城

Intel物联技术研究院研究员,Spark contributor
目前专注于以Apache Spark为主的大数据处理平台,即将加入Databricks。


以下是记者采访原文:

- 什么原因吸引你钻研Spark技术?

最初接触Spark纯粹是出于个人兴趣。我感兴趣的技术方向主要有二,即分布式系统和函数式语言。Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了这两个领域。Spark提供的Scala API本身也很类似于一套分布式、惰性求值的纯函数式语言。然而后来,越是深入探寻,便越是被Spark所吸引。Spark背后的不少想法在先前的系统中或多或少都有所体现,但Matei Zaharia博士众人非常巧妙地集众家之所长,融会贯通,克服了众多旧有特化系统中的各种缺陷,浓缩提炼出了RDD(Resilient Distributed Dataset,弹性分布式数据集)这一高度通用的抽象结构。围绕RDD这一核心,AMPLab团队以扎实的工程功底和开放的心态,打造了全新的Spark生态圈,又以Spark为核心提出了极富创意的BDAS(Berkeley Data Analytics Stack,伯克利数据分析栈)。在研究成果的工业转化方面,AMPLab团队可谓典范:他们不仅是富有远见的科学家,也是功力深厚的工程师,同时还扮演着开源社区中循循善诱的良师益友角色。正是基于以上这些原因,去年得知Spark核心团队创办Databricks后我便力求加盟,并最终幸运地得偿所愿。能与这样一群杰出的同事工作,本身就是一件令人非常兴奋的事。

 - 对于解决哪些问题Spark独具优势?

随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业。如:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等等。在Spark出现之前,要在一个组织内同时完成数种大数据分析任务,就不得不与多套特化系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储(ETL)。AMPLab在介绍以Spark为核心的BDAS时常说的一句话是:one stack to rule them all,也就是说可以在一套软件栈内完成前述各种大数据分析任务。相对于MapReduce上的批量计算、迭代型计算以及基于Hive的SQL查询,Spark更是可以带来一到两个数量级的效率提升,在传统MapReduce近乎不可能的交互式即席查询也因而得以实现。这种“全能”特质,很大程度上源自RDD这一合理抽象和AMPLab/Databricks团队扎实的工程功底。当然,Spark并不真的是全能的。RDD模型适合的是粗粒度的数据并行计算,而不适合细粒度的、需要异步更新的计算;对于这些计算需求,如果要追求极致的性能,还是需要求助于特化系统(如图计算领域的GraphLab等)。但就现有成果来看,Spark的覆盖面已然相当广泛。简而言之,Spark的独门秘籍便是打造结构上一体化、功能上多元化的高效数据流水线。

- 目前企业应用Spark最大的困难是什么?

据我有限的了解,最大的困难还是人才方面的短缺。无论Spark还是Spark所使用的Scala,都还是相当年轻的事物。虽然它们各自都已经吸引了大批富有远见和才华的开发者,但不得不说距离大规模普及还有相当长的一段路要走。另一个相关问题是Spark方面的参考材料还不多。目前社区内开发者们主要的学习方式还限于阅读有限的官方文档、源码、AMPLab发表的论文,以及社区讨论。所幸Fast Data Processing with Spark一书的中文版已经在翻译中;由O'Reilly出品,来自Spark核心团队的Learning Spark今年也有望面世。

- 根据您的了解,目前Spark发展的情况如何?

评价一个开源项目发展情况的重要指标之一就是该项目的贡献者人数。对于这一点,在去年12月份的Spark Summit上,Spark的创始人Matei Zaharia博士十分自豪:“过去六个月内,Spark的活跃开发者人数超过了Hadoop MapReduce!”那时Spark贡献者总人数是103人;而今四个月过去了,根据GitHub最新的统计,这一数字已然增长到了153人。特别值得一提的是,在最近发布的几个版本中,华人开发者的人数飞速上升。Spark项目主站中Powered by Spark页面中不断增长的公司列表也是Spark在工业界稳步推进的有力证明。这份列表中不乏阿里巴巴、百度、点评、搜狐等中国企业的身影。如前所述,Spark的推广还任重道远,但其良好的向下兼容性、相对传统方法的显著优势,以及来自社区的巨大热情令我非常看好Spark的发展前景。

- 请谈谈你在这次大会上即将分享的话题。

 本次大会上,我将为大家介绍新近加入Spark主线版本的alpha组件Catalyst/Spark SQL。在去年的Spark Summit上,Catalyst的主要设计者Michael Armbrust曾将Catalyst描绘为一套简洁强大的SQL查询计划优化框架。随着时间的推移,Catalyst已经逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。后续Catalyst/Spark SQL有望成为Shark的新引擎。Catalyst/Spark SQL的特点主要包括: 向下兼容HiveQL,可以操纵现存的各种Hive数据格式。 支持针对原生RDD对象的关系查询;用户既可以选择HiveQL,也可以选择Catalyst提供的精简SQL子集或Scala DSL,从而完全摆脱对Hive的依赖。 在执行效率方面,Catalyst内建的查询优化引擎可以对用户编写的HQL/SQL查询进行有效优化,从而有效减轻用户在Spark应用性能调优方面的负担。 借力于Scala 2.10新近的反射能力,Catalyst实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。

 - 哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?

所有正在应用Hive、Shark等SQL data warehouse的听众都应该会对这个话题感兴趣。相对于Hive,和Shark一样,Catalyst可以提供一到两个数量级的性能提升,实现真正的交互式大数据即席查询。相对于Shark,Catalyst提供了针对原生RDD对象的关系查询支持,并且在保留Hive兼容性的前提下进一步解耦了对Hive的依赖,精简了代码库;全新的执行计划优化和代码生成框架简洁清爽,为更进一步的性能提升打开了更大的想像空间。


更多精彩尽在2014年4月19日中国Spark技术峰会,3月31日前购票订票可享受最低票价优惠。


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 ! 
Google数据中心PUE的秘密 一个传奇:有个人不断赢得世界算法冠军 音乐能力开放平台合作探索之旅 社交网络海外营销技巧及工具实战 大数据谬误 —— 为什么我们需要收集更多的数据 传苹果地图负责人Rich Williamson遭解雇? 一个月:Windows 8授权许可已破四千万 里程碑:iPhone与Android企业用户市场首次超过黑莓 VMware最快下周宣布分拆Cloud Foundry 国际原子能机构服务器遭窃 百多位专家信息泄密 用户可通过Google Drive直接向Gmail添加高达10GB的文件 韩寒携个人App进军移动互联网 亮相应用汇独家发布会 摆脱谷歌 亚马逊向开发者正式发布地图API 为什么应该用模块取代C/C++中的头文件? Mozilla布道师:HTML5在移动端没有未来? 那些年,历史上留下浓重一笔的黑客们 林敏博士:透过设计看三星手机帝国崛起 OpenFeint血泪史:我们是如何被苹果逼死的 或免费升级:微软2013年推Windows Blue系统 取经:《捕鱼达人2》每月捞金160万美元的秘密 AWS推数据仓库服务Redshift 价格仅是Teradata IBM Oracle的十分之一 美国开展数据中心整合计划 简化政府IT运营 阿里巴巴数据交换平台——集大成于一身 [体验]Windows 8 Metro/Modern Style IE 10 Growth Hacker正席卷全球,你了解它吗? Splashtop发布Ubuntu Linux版本Streamer 性能超过VNC 10倍 Windows 8引领智能操作 人机交互进入触控时代 豌豆荚发布新版应用搜索 推出“绿色标签”机制 权威解读:苹果的未来将走向何方? Google炮轰Facebook:你们的社交已经过时了! iOS设备硬件规格完整汇总 怎样使DataGrid在显示数据的时候实现滚动条? 关于rs.addnew 如何获得id的值,id为自动编号 简单问题,求教:Oracle 8.0.5中ParamByName的问题? 小小问题,如何拷贝sql server一张相同结构的表? 我想咨询一下在VB中不同的后缀代表的是什么功能? 小妹请教各位大虾,apache做应用服务器,unix下,怎样连接oracle数据库? 老天啊,这是为什么??????别了,我的世界杯,别了,巴蒂斯图塔,别了,阿根廷....... 更新数据库问题,100分回报? EXCEL里的时间问题!!谢~ 在word2000里怎样输入数学公式啊 重载[][],请各位帮忙。 我准备参加程序员考试 法国,阿根廷,我的心在滴血。:( :( 为阿根廷哭的人太多了(我的同事,同学等等)。。。是不是央视的沈冰也当场哭了? 寻dialogic代理商合作,急 分页程序中如何加书签,用rs.bookmark最好!!! 听说VB.net的编译器使用C#做的,是吗? 计算机英语在程序员考试中占多大比例? 令人失望的世界杯,放分!!!!!!!!! 怎样获得Mp3的歌曲信息 如何在ACCESS数据库中引用自身数据库? 阿根廷,别为我哭泣! 线程的同步问题(在线等待100) 请问如何在bcb中引用delphi的*.pas文件?(如果可以的话) 如何将CRichEditCtrl的内容输出到打印机? 关于jcreator编译时的问题 在xslt中如何判断一个结点在xml中出现的次数? 请邦邦忙--数据库不能启动了 请问..... 两个存储过程问题,帮我答了,重分酬谢 如何捕获键盘事件 讨论EAS,留步,您请进! 开发自己的组件库! 如何调用.chm帮助文件?? jbuilder6的经典书籍哪里有? 在seek(0,2)中,0,2表示什么意思,整个函数又是什么意思。 WebForm2中如果要引用WebForm1中的变量X(属性),怎么办?X在form1中怎样定义?在form2中怎样引用? 关于汇编语言? 用TC如何在开发OpenGL? 机工出的影印版让人失望!!! 我想问一个关于注册表的问题 如何在ASP中显式的声明一个变量,和dim xxx as xxx一样吗? 对图片处理,请问哪里有抓热点的工具Hospot4.exe下载 用jb5+wls7可以吗 急需关于网际协议分析的论文 哪里有关于学习汇编语言的网站? 请教: 我在程序中对excel的单元格作了修改,每次改后都弹出”修改了excel,是否保存“对话框,怎么去掉呀? 请问如何用VC得到局域网中所有SQLSERVER服务器的名称?请高手指教 一个小问题! 关于写帮助文件的问题 要做一个图书馆管理系统,请提些意见,加100分 “去在平凡的事物中睁大你的眼睛”这句话是什么意思(提示:“平凡的事物”指什么?“睁大你的眼睛”意思是什么?“睁大你的眼睛”用来干什么?你的生活中有过这样的体验吗?) 某同学需要找一块焦距在10cm到5cm之间的凸透镜现有A B C三块凸透镜A:倒立,缩小的实像B:倒立,放大的实像C:只能得到放大,正立的虚像或者三个都得急!在线等物距10CM...忘看了...清楚点,详 kdj值是指K的,D的还是J的值好多说kdj值大于80的,说的是k的,还是d的还是j的值呢?还是他们三个全部大于80呢?简单说明就可以,是他们三个的数值都大于80吗?还是kdj还有个平均线呢?KD的取值范围都 两颗人造地球卫星A、B的质量之比mA∶mB = 1∶2,轨道半径之比rA∶rB = 1∶3,某一时刻它们的连线通过地心,两颗人造地球卫星A、B的质量之比mA∶mB = 1∶3,轨道半径之比rA∶rB = 1∶4,某一时刻它们的 世界上最硬的是金刚石(钻石),那么,世界上有最软的吗?世界上最硬的是金刚石(即钻石),那么,世界上有最软的吗?最软的是什么? kdj指标K · D ·J 分别表示什么在期货中 KDJ中的K ` D ` J 分别表示什么 请问什么时候开始有红铜镀银技术买了件小东西,是一只四不像,红铜镀银,不知是什么年代的 如图19所示电路中,C是一平行板电容器,E是一直流电源(内阻可忽略不计),当电键S闭合后,增大电容器两极板间的距离,电容器两板间的电压将_________,电容器的带电荷量将_________.若先将S闭合, 有一焦距为10cm的凸透镜,物体从离凸透镜30cm处沿主光轴移到的过程中,则 去在平凡的事物中睁大你的眼睛——《生活是多么广阔》理解句子,并说说你的生活中有过这样的体验吗?抓住句子的关键,联系自己的生活实际.注意联系生活实际,谈谈你有过这样的体验吗? 在哪里能买到不锈钢镀铜板 不锈钢仿古铜板哪里可以做 一个焦距是10CM的凸透镜,当物体从离透镜20CM处渐移向30CM处的过程中A:像渐大,像距变小 B:像渐小,像距变大C:像渐大,像距变大 D:像渐小,像距变小 16.两颗人造地球卫星A、B的质量之比mA∶mB = 1∶2,轨道半径之比rA∶rB = 1∶3,某一时刻它们的连线通过地心,则此时它们的线速度之比vA∶vB = ,向心加速度之比aA∶aB = ,向心力之比FA∶FB = .17.某 哪里可以做不锈钢仿古铜板 不锈钢镀铜板在哪里能买到? 有一焦距为10CM的凸透镜,将物体从离凸透镜30CM处沿主光轴移动到距透镜5CM处在这个过程中,下面说法中正确的是A 在光屏上的像始终是倒立的,并且越来越大B 在光屏上的像始终是正立的C 开始 在紫铜材表面镀银,铜材表面是越光滑平整还是稍微有些粗糙对镀银层的结合力有益? 不锈钢仿铜板在哪里可以买到?不锈钢渡铜板有哪些工序? 用 字母 表示梯形的 面积公式是 什么?平行四边形为 0时 的 面积公式是什么?梯形的上底,梯形变成什么 形用 字母 表示梯形的 面积公式是 什么?平行四边形 的 面积公式是什么?梯形的上底为0 两颗人造卫星绕地球做匀速圆周运动,它们的质量比mA:mB=1:2,轨道半径之比rA:rB=3:1,某一时刻.他们的连线恰好通过地心.它们的线速度之比vA:vB它们的向心加速度之比aA:aB它们的向心力之比FA:FB它 我想自己在铜板上镀银,有知道办法的没自己干,电镀都可以, 一个梯形的上底延长,就变成一个平行四边形,面积增加,知道下底怎样求梯形的面积 断路器的电接触触头有的采用紫铜镀银的,这么做对镀银的厚度有什么要求镀层厚度的选择理论依据是什么?镀多厚为最好 G为△ABC所在平面内一点且满足向量GA+向量GB+向量GC=0向量,求证G为△ABC的重心. 两个平面平行,A在一个平面内,B在另一个内,C是BA的中点,AB在移动的同时,点C为什么共面,急. 两颗人造卫星A B的质量之比1:2 轨道半经之比1:3 某一时刻它们的连线通过地心 则此时它们的线速度之...两颗人造卫星A B的质量之比1:2 轨道半经之比1:3 某一时刻它们的连线通过地心 则此时它 一个焦距是10cm的凸透镜,蜡烛在他左侧30cm处,可得一个什么像 若直线m不平行于平面a,且m不属于a,则“a内的所有直线与m异面"对不对?为什么, 紫铜的辨别怎样才能准确的辨别出什么是紫铜? 一个凸透镜的焦距为10cm,将点燃的蜡烛放在凸透镜前30cm处在透镜的另一侧光屏上得到一个像是A倒立缩小的实像B倒立放大的实像C倒立等大的实像D正立放大的虚像 力偶移动到起其作用面平行的任意平面上()A.会引起附加力 B不改变其对刚体作用效果 C.会引起附加力矩 D.会使刚体随力偶的移动而移动 物理选择题,两颗质量相等的人造卫星a.b,绕地心运行的圆周轨道半径是ra和rb,且ra=2rb,下列说法正确的是A,由F=mv²/r,可知a受向心力b的1/2倍B,由F=GMm/r²,可知a受向心力是b的1/4倍C,由F=mω 凸透镜焦距为10cm,将物体由距凸透镜40cm处匀速移动到20cm处,所用时间为2s,求此过程中物体的像移动的平均速度. 空间几何中的两线平行或垂直是指移到同一平面后,能形成这种关系的情况吗 我问一下紫铜与红铜的材质有什么区别 一个梯形,上底长 6cm,若将它的上底延长 4cm,就变成一个平行四边形,面积比原来增加 10 cm2,原来梯形的面积是( )cm2. 向量可以自由移动吗?~向量与平面共面包括向量与平面平行吗?~~ 如果电势能随零势能点的选取变化,且Ep=电势×电荷量.那么改变零势能点的选取,电势能也随之改变,该点电势不也就变了吗?可一个点的电势是不变得啊? 草图大师中如何选择沿蓝轴移动 距地面20——35千米出的大气层里有一个“臭氧层”,它集中了地球上臭氧的( 填)有A 50% B 70% C 80% D 90% 四个选项选一个 实验装置:试管,酒精灯,带有铁夹的铁架台.导管,集气瓶,水槽.用它们收集氧气的理由是什么 物理题:一行星的半径是地球半径的2倍,密度与地球相同,在此行星上竖直上抛一物体,上升的最大高度是h,则在地球上以同样大的初速度竖直上抛同一物体,上升的最大高度应为多少?(不计空 某凸透镜焦距为10cm,物体放在离焦距5cm处,所成的像( )A、是实像 B、是虚像 C、一定是缩小的像 D、一定是放大的像 (1/2)制取和收集氧气时,都要用到的一组仪器是() A集气瓶、量筒、铁架台、试管B集气瓶、试管、铁...(1/2)制取和收集氧气时,都要用到的一组仪器是() A集气瓶、量筒、铁架台、试管B集气瓶、试 草图大师怎么限制在一个平面移动 某凸透镜焦距是10cm,将物体放在立脚点5cm的地方,所成的像( )A 一定是实像 B 一定是虚像 C 一定是放大的像 D 一定是缩小的像 凯氏定氮中,蛋白质消化为什么我在消化过程无法得到澄清溶液,我加热一个多小时溶液仍然是黑色的,这是什么原因呢? 草图大师里移动工具为什么不能上下移我用的是草图大师8.都用这么久了,但每次画图都还是会出错,纠结! 导数与微分的计算 物理选修2中如何判断电势能方向? 草图大师复制的时候怎么让在一个平面上好难复制,有时候跑到下面去了 为什么标准蛋白质必须用凯氏定氮法测定纯度 去在平凡的事物中睁大你的眼睛是什么意思 今天物理讲高中选修三 电学第一章第四节电势能与电势 老师讲的太快 一节课全讲了 怎么办?今天物理讲高中选修三 电学第一章第四节电势能与电势 老师讲的太快 一节课全讲了 怎么办? 草图大师如何平移到平面上我快烦死了,如何把树平移到草坪上,主要我树老是挨不到草坪,有没有什么直接输命令的.向Y轴移动多少距离,向Z轴移动多少距离的这种命令. 去在平凡的事物中睁大你的眼睛这句怎么理解 臭氧的密度比空气大 为什么不会下沉 KDJ指标中的K值和D值是怎样计算出来的请问股市中KDJ指标中的K值、D值、J值是怎样计算出来的.再问KDJ指标中所涉及的RSV是什么意思.谢谢高师指点 “去在平凡的事物中睁大你的眼睛.”这句话的意思是 一物体位于焦距为5cm的凸透镜前,从距离透镜25cm处逐渐靠近距离透镜10cm处的过程中,像的大小的变化情况是A:逐渐变大,而且始终比物大 B:逐渐变小,但始终比物大C:不管怎样变化,始终比物大 臭氧层没了后地球会变成什么样子?那时还有人类吗?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘