说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线

HTML文档下载 WORD文档下载 PDF文档下载
连城讲到,Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了分布式系统和函数式语言,目前Spark的覆盖面已然相当广泛。他称Spark的独门秘籍便是“打造结构上一体化、功能上多元化的高效数据流水线。”

2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。

在Spark技术峰会召开前夕,记者和本次Spark峰会的演讲嘉宾连城做了一次简单的沟通,他就Spark技术优势、Spark技术发展、企业应用Spark遇到的困境等话题分享了自己的看法。

连城

Intel物联技术研究院研究员,Spark contributor
目前专注于以Apache Spark为主的大数据处理平台,即将加入Databricks。


以下是记者采访原文:

- 什么原因吸引你钻研Spark技术?

最初接触Spark纯粹是出于个人兴趣。我感兴趣的技术方向主要有二,即分布式系统和函数式语言。Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了这两个领域。Spark提供的Scala API本身也很类似于一套分布式、惰性求值的纯函数式语言。然而后来,越是深入探寻,便越是被Spark所吸引。Spark背后的不少想法在先前的系统中或多或少都有所体现,但Matei Zaharia博士众人非常巧妙地集众家之所长,融会贯通,克服了众多旧有特化系统中的各种缺陷,浓缩提炼出了RDD(Resilient Distributed Dataset,弹性分布式数据集)这一高度通用的抽象结构。围绕RDD这一核心,AMPLab团队以扎实的工程功底和开放的心态,打造了全新的Spark生态圈,又以Spark为核心提出了极富创意的BDAS(Berkeley Data Analytics Stack,伯克利数据分析栈)。在研究成果的工业转化方面,AMPLab团队可谓典范:他们不仅是富有远见的科学家,也是功力深厚的工程师,同时还扮演着开源社区中循循善诱的良师益友角色。正是基于以上这些原因,去年得知Spark核心团队创办Databricks后我便力求加盟,并最终幸运地得偿所愿。能与这样一群杰出的同事工作,本身就是一件令人非常兴奋的事。

 - 对于解决哪些问题Spark独具优势?

随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业。如:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等等。在Spark出现之前,要在一个组织内同时完成数种大数据分析任务,就不得不与多套特化系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储(ETL)。AMPLab在介绍以Spark为核心的BDAS时常说的一句话是:one stack to rule them all,也就是说可以在一套软件栈内完成前述各种大数据分析任务。相对于MapReduce上的批量计算、迭代型计算以及基于Hive的SQL查询,Spark更是可以带来一到两个数量级的效率提升,在传统MapReduce近乎不可能的交互式即席查询也因而得以实现。这种“全能”特质,很大程度上源自RDD这一合理抽象和AMPLab/Databricks团队扎实的工程功底。当然,Spark并不真的是全能的。RDD模型适合的是粗粒度的数据并行计算,而不适合细粒度的、需要异步更新的计算;对于这些计算需求,如果要追求极致的性能,还是需要求助于特化系统(如图计算领域的GraphLab等)。但就现有成果来看,Spark的覆盖面已然相当广泛。简而言之,Spark的独门秘籍便是打造结构上一体化、功能上多元化的高效数据流水线。

- 目前企业应用Spark最大的困难是什么?

据我有限的了解,最大的困难还是人才方面的短缺。无论Spark还是Spark所使用的Scala,都还是相当年轻的事物。虽然它们各自都已经吸引了大批富有远见和才华的开发者,但不得不说距离大规模普及还有相当长的一段路要走。另一个相关问题是Spark方面的参考材料还不多。目前社区内开发者们主要的学习方式还限于阅读有限的官方文档、源码、AMPLab发表的论文,以及社区讨论。所幸Fast Data Processing with Spark一书的中文版已经在翻译中;由O'Reilly出品,来自Spark核心团队的Learning Spark今年也有望面世。

- 根据您的了解,目前Spark发展的情况如何?

评价一个开源项目发展情况的重要指标之一就是该项目的贡献者人数。对于这一点,在去年12月份的Spark Summit上,Spark的创始人Matei Zaharia博士十分自豪:“过去六个月内,Spark的活跃开发者人数超过了Hadoop MapReduce!”那时Spark贡献者总人数是103人;而今四个月过去了,根据GitHub最新的统计,这一数字已然增长到了153人。特别值得一提的是,在最近发布的几个版本中,华人开发者的人数飞速上升。Spark项目主站中Powered by Spark页面中不断增长的公司列表也是Spark在工业界稳步推进的有力证明。这份列表中不乏阿里巴巴、百度、点评、搜狐等中国企业的身影。如前所述,Spark的推广还任重道远,但其良好的向下兼容性、相对传统方法的显著优势,以及来自社区的巨大热情令我非常看好Spark的发展前景。

- 请谈谈你在这次大会上即将分享的话题。

 本次大会上,我将为大家介绍新近加入Spark主线版本的alpha组件Catalyst/Spark SQL。在去年的Spark Summit上,Catalyst的主要设计者Michael Armbrust曾将Catalyst描绘为一套简洁强大的SQL查询计划优化框架。随着时间的推移,Catalyst已经逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。后续Catalyst/Spark SQL有望成为Shark的新引擎。Catalyst/Spark SQL的特点主要包括: 向下兼容HiveQL,可以操纵现存的各种Hive数据格式。 支持针对原生RDD对象的关系查询;用户既可以选择HiveQL,也可以选择Catalyst提供的精简SQL子集或Scala DSL,从而完全摆脱对Hive的依赖。 在执行效率方面,Catalyst内建的查询优化引擎可以对用户编写的HQL/SQL查询进行有效优化,从而有效减轻用户在Spark应用性能调优方面的负担。 借力于Scala 2.10新近的反射能力,Catalyst实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。

 - 哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?

所有正在应用Hive、Shark等SQL data warehouse的听众都应该会对这个话题感兴趣。相对于Hive,和Shark一样,Catalyst可以提供一到两个数量级的性能提升,实现真正的交互式大数据即席查询。相对于Shark,Catalyst提供了针对原生RDD对象的关系查询支持,并且在保留Hive兼容性的前提下进一步解耦了对Hive的依赖,精简了代码库;全新的执行计划优化和代码生成框架简洁清爽,为更进一步的性能提升打开了更大的想像空间。


更多精彩尽在2014年4月19日中国Spark技术峰会,3月31日前购票订票可享受最低票价优惠。


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 ! 
你的钱被洗劫了么!APP安全问题来袭 10大最常见的数据库安全问题 南航微信服务号是如何炼成的? 超40项功能改进,虚幻引擎4.5正式发布! 【工具推荐】ER:可轻松构建一站式AJAX Web应用的开发框架 GraphLab:将大数据分析从理念运用到生产 支持Android 5.0:完全用Ruby的Ruboto框架迎1.2.0更新! 万物互联第一步:采用AllJoyn技术的智能硬件 【专访】敏捷专家何勉:让测试成为拉动组织敏捷实施的力量 Docker与微软合作 支持Windows Server 企业号热问热答——来深圳微信开发者大会聆听一线讲师的实战分享 AngularJS 1.3.0正式发布 超光速发展! 学个痛快!十款不容错过的Swift iOS开源项目 HTML5:助力智能电视生态实现新跃迁 MDCC 2014移动开发者大会公布全部议程 求更密集!Apple Watch SDK将于11月正式开放 【答疑】微信开放平台开发者资质认证 专访Informatica亚太和日本区副总裁Murray Sargant:中国公司正考虑数据资产货币化 Facebook又开源:让iOS应用界面极致流畅的ASDK框架 一周消息树:盘点史上最具毁灭性的软件Bug 微信公众平台设备功能支持个人开发者接入 2014中国移动开发者大调查第三批获奖名单曝光 微信企业号上线,带你看看它的真面目! OpenStack Juno版本发布——支持Spark和NFV 【十问十答】对话Go语言开发团队 苹果要求、Android开始,64位时代真的来了! MDCC 2014产品与设计论坛:带你发现产品之美 Java开发者值得关注的7款新工具 助力国产移动产品出海,UCloud部署北美节点 Zack Parker:用EC2在Cotap上打桩 用卫生棉杀敌冲关!两个高中女生的创意游戏 如何动态(自动)调整数据窗口列间距? 急急急急急急急急急急急急急急急急急急急急急急急急急急急 请赐教:在app“非法操作”并关闭后如何把app原来在内存中的数据写回数据库或文件中呢??? 请问哪里能下载到《设计模式》的电子版本?pdf或html都行!谢谢了! 在PB8下面,MAIN窗口的MAXBOX = FALSE ,我设定这个窗口一打开的时候就最大化,为什么在这个窗口打开之后双击TITLE,窗口就变成了我设计的 CSDN论坛到底怎么了??? 一个和sql server连接问题? OO设计还有哪有原则? http://edu.sina.com.cn/l/2002-03-14/21924.html(看看吧~!!!多惨啊) 请问c的n次乘方函数是什么? 请各位大侠指教,关了类型转换的问题 学习Jive源代码要从那里入手 ★★★快来抢100分★★★:在bcb6里,我用import activex control添加组件怎么提示错误:E2347 Parameter mismatch in write access ?? 大家给推荐几个MM喜欢的小游戏吧 如何在一个基于对话框的界面上添加一个view 一个关于两个网页之间的传递及表单生成问题,请教! 在c/s之间,数据处理的问题 vb中的类的多样性,怎么表现出的? 谁能告诉我DELPHI6.0安装盘的序列号.送分,thanks!!! UFO 的秘密!最新发现,足以推翻以前任何种学说,想知道UFO真正的面目者,进来看看。 菜鸟问高手,如何在一个多文档程序中,关闭子窗口? 关于漂亮虫虫的疑惑 如何移动edit控件,使用什么函数?谢谢 servlet和JSP有何区别?(菜鸟级) template class declare? 请教一个很菜的问题,赶快请进 高手看过来,关于ipc的问题! 怎样在listbox中保存信息? 刚刚学习ASP,请问在哪里可以下载ASP的资料!!!!! swing中哪个类可以用作ToolBar中的按钮? 要能显示图象的 template 怎样更改trichedit鼠标指针样式? 我正在寻求仿XP菜单的源代码或控件,不知道哪位高手有????(email:zhem8@yeah.net) 关于创建不规则窗口的问题,请一定帮忙。谢谢!我只有100分了~~~~~~~~~~~~~~! 用cdonts发邮件时为什么把附件发到了内容当中,都是乱码,应该怎么改? Coledatetime同oracle8中的date类型相同吗? 关于操作系统 怎样拦截某个控件的消息? 请问怎么不加lib档又可以编译做好的dll?? 请问DivX的使用 请问有谁研究过USB接口的驱动????? 简单问题:怎么给我满意的答复加分呢? 救命啊。。。 9行程序崩溃WIN2000/xp 太、太、太好了!连帮助都是中文的,还可以继承、多线程,盗版比正版还提前发布。 关于C++的构造函数的问题 初学java网络编程的问题 KYLIX如何连接ORACLE? 有全套的ERP源代码出售 俺的机子装了Linux现在想改装WindowNT,用NT分区格式化后,咋一启动就显示LI,然后就不动了。 我安装了win2000和redhat Linux7.2,要启动盘才能进入Linux,怎样能在启动时选择进入 -OH 和-COOH的区别就是碳氧双键使羟基氢更活泼吗?求正解… 为什么纯铁比生铁软,是什么因素导致? 硫酸亚铁与氯气反应的方程式不要离子式 2012年1月30日翻译成英文是怎样?(不要简写,全写,就连月份也全写) 用量筒量取一定体积的液体时需要用胶头滴管吗? 蚂蚁的英语单词怎么拼? 1,冬天手冷时,用嘴慢慢地向手上哈气时,手会感到暖和些;若用力向手上吹气,手不但不感到暖和,反而觉得更冷.试一试,并用物理地语言说明其中的道理.2.小明和小红都想帮妈妈煮粥.小明认为 钢的含碳量比生铁的含碳量少,而钢比生铁硬,所以含碳量越少,则铁合金的硬度越大,所以当含碳量为零时硬度越大,则纯铁比钢和生铁硬,而合金比它所含的纯金属硬度大,这是矛盾的,那这是为 铁和硫酸反应生成氧气和硫酸亚铁的化学方程式 什么性质的 油漆 或者 颜料,用天那水或酒精之类的 溶剂都洗不掉油漆或颜料 是涂在木板上的有没有什么办法在颜料或油漆上进行处理(不能用烘烤的),使之不怕溶剂的清洗,而又不影响效 1.测出一胶头滴管的水的体积,再测出一滴管水共有几滴? 不锈钢316氮化处理后对抗腐蚀性有何影响 高达模型渗线是先消光还是渗完再喷消光,需要加深刻线吗,溶剂是用ZIPPO油好还是田宫专门的珐琅漆溶剂好呢 高锰酸钾和硫酸亚铁氨反应的化学方程式是什么? 为什么不锈钢在除碳之后的抗腐蚀性更强 英语缩写(要20个)须20个,格式如NBA 全美篮球协会 纯铁比生铁更难发生点化学腐蚀 这句话对不? 两个问题,1,金属结晶的基本规律是什么?2,晶核的形核率和生长速率受哪些因素影响 某地一株千年古槐已经空心,但依然枝叶繁茂、古槐“空心”空去的主要是茎中的( )和( )的一部分.感激不尽,要期末考了………… 为什么铁在潮湿空气中更易腐蚀 金属结晶的过程是一个什么和什么的过程 1.某导体接在电压为3伏的电路中,通过它的电流为0.15安,若把它接在6伏的电路中,导体的电阻是多少欧?2.在50℃时氯化铵的溶解度为50克,回答下列问题:(1)如用30克水,需加氯化铵多少克?(2) 醛基的碳原子除了跟氧原子通过双键连接外,另两个空位是不是只能和碳原子或氢原子连接呢? 新买的热水瓶里的味道要怎么除掉? 哪些描述天气?哪些描述气候1、受南下寒潮的影响,本市将会明显降温2、这几天朵朵白云漂浮在蓝天上,美极了 一个手性碳原子左边连一个羟基,右边连一个醛基,上面连一个氢,下面连一个羟甲基怎么命名呀?(D/L) 氢氧化钠稀溶液可以与二氧化碳反应吗 Ca(OH)2溶解度为什么会随温度的降低而升高?不要说是因为物质的特性,这我知道.我要的是具体的解答 普通胶头滴管怎样正确使用?滴管又怎样正确使用? S和NaOH的反应解释?就是为什么生成了那些东西 溶解度随温度升高而变小到的物质有哪些,除了Ca(OH)2 醇发生氧化反应,为什么羟基所在的碳原子上要有氢原子? 二氯乙烷与稀氢氧化钠溶液反应吗您好,我想知道二氯乙烷挥发气体与稀氢氧化钠溶液直接快速反应吗? 写出下列化合物中的氢元素化合价 进行高到低排序 硫酸亚铁氧气和水方程式怎么配平 金属结晶的条件和驱动力是什么 溶解度跟溶质的质量分数 有什么不同? 硫酸亚铁溶液在氧气中氧化反应方程式?Fe3+是否沉淀? 新的热水瓶木塞如何去味道 植物化石 值多少钱 胶头滴管20cm一次可以吸多少毫升 硫酸亚铁与氧气的反应为什么硫酸亚铁或氯化亚铁溶液久置在空气中会慢慢变成硫酸铁和氯化铁是否因为亚铁离子在空气中被逐渐氧化成铁离子?如果是 请写出反应的方程式 维生素c的结构式中看到醇羟基与碳碳双键相连,这种结构稳定么? 滴管胶头怎么装 烧开水的水壶如何去除其中的水垢 维生素C有羟基、双键、酯基、这些官能团决定了维生素C有哪些性质实验呢? 甲乙两机械,甲的机械效率是70%、乙的机械效率是50%,下列说法中正确的是( )A、使用甲机械做功省力 B、甲机械做功快C、相同时间内,甲机械完成的功多 D、乙机械的额外功在总功中占的 如何去除壶里的污垢,暖水壶和烧开水的壶里都有 刘丽同学上课回答问题时的收声频率是450赫,它表示的意思是 化石的价值 有机物中一个碳原子上可以同时连氢原子和羟基吗? 这是植物化石吗,有收藏价值吗 化石的研究价值在哪? 为什么必须在OH在连有羟基碳的相邻的碳原子上有氢原子则可以消去为什么必须有H?O、N什么的不行吗?不就是为了能形成不饱和键吗.那为什么不保证在连有羟基碳的碳原子上有氢原子或是其 为什么有了一个羟基后羧酸就的碳氧双键就无法加成?RT 硫酸亚铁溶液中加入酸性高锰酸钾溶液方程式 亲,次氯酸与碳碳双键加成时拆成羟基与氯原子还是氢原子与氯氧基? 一个碳连一个双键氧和两个羟基的物质酸性为什么弱于乙酸 胶头滴管 滴出 液滴 的大小的问题我想到一个问题`用胶头滴管滴出不同溶液的液滴大小是一样的吗?如果不一样`液滴的大小和什么有关`?或者之间存在个什么关系? 打一英语单词 蚂蚁本来无尾巴
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘