说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线

HTML文档下载 WORD文档下载 PDF文档下载
连城讲到,Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了分布式系统和函数式语言,目前Spark的覆盖面已然相当广泛。他称Spark的独门秘籍便是“打造结构上一体化、功能上多元化的高效数据流水线。”

2014年4月19日“中国Spark技术峰会”(Spark Summit China 2014)将在北京召开,国内外Apache Spark社区成员和企业用户将首次齐聚北京。AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享他们在生产环境中的Spark项目经验和最佳实践方案。

在Spark技术峰会召开前夕,记者和本次Spark峰会的演讲嘉宾连城做了一次简单的沟通,他就Spark技术优势、Spark技术发展、企业应用Spark遇到的困境等话题分享了自己的看法。

连城

Intel物联技术研究院研究员,Spark contributor
目前专注于以Apache Spark为主的大数据处理平台,即将加入Databricks。


以下是记者采访原文:

- 什么原因吸引你钻研Spark技术?

最初接触Spark纯粹是出于个人兴趣。我感兴趣的技术方向主要有二,即分布式系统和函数式语言。Spark作为一套用Scala写成的分布式内存计算系统,很好地结合了这两个领域。Spark提供的Scala API本身也很类似于一套分布式、惰性求值的纯函数式语言。然而后来,越是深入探寻,便越是被Spark所吸引。Spark背后的不少想法在先前的系统中或多或少都有所体现,但Matei Zaharia博士众人非常巧妙地集众家之所长,融会贯通,克服了众多旧有特化系统中的各种缺陷,浓缩提炼出了RDD(Resilient Distributed Dataset,弹性分布式数据集)这一高度通用的抽象结构。围绕RDD这一核心,AMPLab团队以扎实的工程功底和开放的心态,打造了全新的Spark生态圈,又以Spark为核心提出了极富创意的BDAS(Berkeley Data Analytics Stack,伯克利数据分析栈)。在研究成果的工业转化方面,AMPLab团队可谓典范:他们不仅是富有远见的科学家,也是功力深厚的工程师,同时还扮演着开源社区中循循善诱的良师益友角色。正是基于以上这些原因,去年得知Spark核心团队创办Databricks后我便力求加盟,并最终幸运地得偿所愿。能与这样一群杰出的同事工作,本身就是一件令人非常兴奋的事。

 - 对于解决哪些问题Spark独具优势?

随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业。如:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等等。在Spark出现之前,要在一个组织内同时完成数种大数据分析任务,就不得不与多套特化系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储(ETL)。AMPLab在介绍以Spark为核心的BDAS时常说的一句话是:one stack to rule them all,也就是说可以在一套软件栈内完成前述各种大数据分析任务。相对于MapReduce上的批量计算、迭代型计算以及基于Hive的SQL查询,Spark更是可以带来一到两个数量级的效率提升,在传统MapReduce近乎不可能的交互式即席查询也因而得以实现。这种“全能”特质,很大程度上源自RDD这一合理抽象和AMPLab/Databricks团队扎实的工程功底。当然,Spark并不真的是全能的。RDD模型适合的是粗粒度的数据并行计算,而不适合细粒度的、需要异步更新的计算;对于这些计算需求,如果要追求极致的性能,还是需要求助于特化系统(如图计算领域的GraphLab等)。但就现有成果来看,Spark的覆盖面已然相当广泛。简而言之,Spark的独门秘籍便是打造结构上一体化、功能上多元化的高效数据流水线。

- 目前企业应用Spark最大的困难是什么?

据我有限的了解,最大的困难还是人才方面的短缺。无论Spark还是Spark所使用的Scala,都还是相当年轻的事物。虽然它们各自都已经吸引了大批富有远见和才华的开发者,但不得不说距离大规模普及还有相当长的一段路要走。另一个相关问题是Spark方面的参考材料还不多。目前社区内开发者们主要的学习方式还限于阅读有限的官方文档、源码、AMPLab发表的论文,以及社区讨论。所幸Fast Data Processing with Spark一书的中文版已经在翻译中;由O'Reilly出品,来自Spark核心团队的Learning Spark今年也有望面世。

- 根据您的了解,目前Spark发展的情况如何?

评价一个开源项目发展情况的重要指标之一就是该项目的贡献者人数。对于这一点,在去年12月份的Spark Summit上,Spark的创始人Matei Zaharia博士十分自豪:“过去六个月内,Spark的活跃开发者人数超过了Hadoop MapReduce!”那时Spark贡献者总人数是103人;而今四个月过去了,根据GitHub最新的统计,这一数字已然增长到了153人。特别值得一提的是,在最近发布的几个版本中,华人开发者的人数飞速上升。Spark项目主站中Powered by Spark页面中不断增长的公司列表也是Spark在工业界稳步推进的有力证明。这份列表中不乏阿里巴巴、百度、点评、搜狐等中国企业的身影。如前所述,Spark的推广还任重道远,但其良好的向下兼容性、相对传统方法的显著优势,以及来自社区的巨大热情令我非常看好Spark的发展前景。

- 请谈谈你在这次大会上即将分享的话题。

 本次大会上,我将为大家介绍新近加入Spark主线版本的alpha组件Catalyst/Spark SQL。在去年的Spark Summit上,Catalyst的主要设计者Michael Armbrust曾将Catalyst描绘为一套简洁强大的SQL查询计划优化框架。随着时间的推移,Catalyst已经逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。后续Catalyst/Spark SQL有望成为Shark的新引擎。Catalyst/Spark SQL的特点主要包括: 向下兼容HiveQL,可以操纵现存的各种Hive数据格式。 支持针对原生RDD对象的关系查询;用户既可以选择HiveQL,也可以选择Catalyst提供的精简SQL子集或Scala DSL,从而完全摆脱对Hive的依赖。 在执行效率方面,Catalyst内建的查询优化引擎可以对用户编写的HQL/SQL查询进行有效优化,从而有效减轻用户在Spark应用性能调优方面的负担。 借力于Scala 2.10新近的反射能力,Catalyst实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。

 - 哪些听众最应该了解这些话题,这个话题可以帮助听众解决哪些问题?

所有正在应用Hive、Shark等SQL data warehouse的听众都应该会对这个话题感兴趣。相对于Hive,和Shark一样,Catalyst可以提供一到两个数量级的性能提升,实现真正的交互式大数据即席查询。相对于Shark,Catalyst提供了针对原生RDD对象的关系查询支持,并且在保留Hive兼容性的前提下进一步解耦了对Hive的依赖,精简了代码库;全新的执行计划优化和代码生成框架简洁清爽,为更进一步的性能提升打开了更大的想像空间。


更多精彩尽在2014年4月19日中国Spark技术峰会,3月31日前购票订票可享受最低票价优惠。


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上 报名 ! 
Windows 8的IE10在浏览器安全测试中独占鳌头 程序员如何做出“不难看”的设计 JDK6明年2月停止更新,甲骨文呼吁尽快升级至7 《时代》评选年度十大视频游戏,激战2居首 《时代》评选年度十大科技产品,iPhone 5居首 Loopjoy:让开发者在移动游戏里贩售真货 iPhone 5S真机照片泄露 明年初上市 Beeline:从“蓝精灵村庄”到“捉鬼敢死队” Windows Server 2012域服务的六大改进 如何编写出优美的JavaScript代码? Unity CEO:不会因赌博游戏谋取金钱利益 云领域:且看亚马逊、Rackspace、微软及谷歌四国争霸 十一位EMC高管读2013技术趋势 你准备好了吗? Yahoo:拥抱Hadoop和HTML5 苹果聘女黑客为系统安全员 曾让Vista推迟发布 移动游戏定价之谜:0.99美金行不通 9.99美金和19.99美金才是王道 2012末日年:《时代》评选年度十大App 使用HTML5 Web存储实现离线工作 紧跟亚马逊、谷歌步伐 微软下调Azure云服务价格 云计算一周热点回顾:Hadoop专家分享大数据技术工具与最佳实践 Python之父Guido Van Rossum离开谷歌 一月加盟Dropbox 图灵奖获得者Butler Lanpson:计算机在做些什么 华为高级技术经理Anoop Sam John:HBase的二级索引 秦令今:技术是竞争的核心,形成自己的特色! 兰旭:拒绝同质化,做自己的真材实料! Cloud Foundry直面PaaS对手 初具商用能力 IndieBros访谈:探寻《2+18+200万》背后的故事 移动周报:生存还是毁灭 HTML5未来路在何方? 开发者的新机遇:微软生态系统打开开源大门 阻碍创新:谷歌、Facebook请求驳回抽象专利概念 Apple专利战分析:战火不停 创新不止 如何挂载usb硬盘?? 使用TrackBar控件的问题 挑战高手, 巨难问题. 有关不同系统(ACCESS, MSSQLSERVER) 的SQL语句兼容问题 奇怪问题:我的光驱,有的光盘能读,有的不能读(比如自己刻录的) SQL Server 安装时的密码,忘了,如何取得,在线等待 挑战高手, 巨难问题. 有关不同系统(ACCESS, MSSQLSERVER) 的SQL语句兼容问题 谁能告诉我,汇编论坛在哪?谢谢 调色板问题 挑战高手, 巨难问题. 有关不同系统(ACCESS, MSSQLSERVER) 的SQL语句兼容问题 如何在WLS7中部署一个Servlet和一个JSP? 挑战高手, 巨难问题. 有关不同系统(ACCESS, MSSQLSERVER) 的SQL语句兼容问题 新手问题: 一个简单的js效果实现问题 吐血送分!关于datagrid的数据更新问题! 为什么不能进大富翁论坛 谁有KV3000啊,传个给我行吗,我下载了好几个都不行, 我有原版盘坏了,谢 VB 怎么调入并执行写好的SQL文件. 今天我生日,郁闷散分 吐血送分!关于datagrid的数据更新问题! 请问powerdesigner生成.sql时,如何在.sql中包含Comment信息 DBGrid改变行的颜色 下载英文Windows的地址 我要在一個按鈕點擊后,開啟另外一個頁面,並且這個頁面自動處於打印預覽狀態,怎麼寫? 正在上升中,公司给自己加薪了,自己却突然心灰意冷. 我想问什么是temporary object?请高手指教 那位大哥在HP-UX下配置过PHP和ORACLE? 宝丽金120首金曲 Dialogs(wdDialogFileOpen)提示ActiveX不能创建对象? 那位朋友知道如何在网络上截取一个信息(数据包) 大家看过dvdrip的片子吗?有一个问题请问 (winform)我想编写一个简单的浏览器,问题1 在LINUX下如何安装软件啊? 苏州的朋友可以进来看看吗? 关于游标类型的问题 如何比较两幅近似图像并得出偏移的距离? 怎样处理鼠标拖动事件。 绘制图形时的自动滚屏问题 请教怎么去掉字符串后面带的空格? 请教关于双机通讯的问题,谢谢 播放问题 如何使用jsp显示数据库中的数据? 请问什么叫模态窗口啊? Win32标准dll,VB下调用问题 挑战:对手机短信文字自动解析? 推荐一个linux下的杀毒软件. 关于oicq? 二手笔记本多小钱? 关于在iis中的resin的配值问题,急,求帮助!!!! PHP中的类到底是怎么回事 怎么知道INI文件的某一个小节下有几个关键字? 不知道发在这里对不对。。。有关DVD 背诵英语句子有用吗?//还有怎么提高英语的阅读和完型分数?我要升高二了 我想在这两年内多背诵些英语句子 是比较简单的那种 就是新概念的一些句子 这样有用吗?我英语最差的是阅读和完 THE ORIGINS OF VIRTUE怎么样 英文"月饼"怎样拼写? 怎样在短时间内记忆英语句子早读时间很短 但是要背的东西好多 特别是句子 我语法神马的都不懂 上了高中之后被老师打击的没有信心了 一看到句子就不太敢背 怕背错 怎么才能准又快的记 THE THEOLOGICAL ORIGINS OF MODERNITY怎么样 change your diet and lifestyle from today!中文翻译 How did the Silk Road influence the development of Ancient China? THE ORIGINS OF THE CULTURAL REVOLUTIONVOL1怎么样 change your diet and lifestyle feom today.的中文是什么? How do you think of the current development of China?关于一个方面就行 THE ORIGINS OF POLITICAL ORDER怎么样 "迷"的英语单词? 英语翻译Sports have developed fast in our country these years.In 1974,our country first came to the Asian Games.In 1978,in the 8th Asian Games,our country won the second place.Our country has won the largest number of gold medals in the past six 保留这个词的准确意思? 迷眼睛的英语单词和韩国语单词是什么?(^-^) The number of Chinese speakers in the world ______ with the development of China is much larger than ever before.A.grows B.grown C.growing D.grow 原因? 猜猜这是什么,猜对给好评哟 爸爸做过来,经他一点拨我豁然开朗,真是(),于是我很快解开了这道难题.(在括号里填上一句诗) No problem,Do you think it is necessary? the pressure deviation will limit the change speed of the main steam valve’s 描写落汤鸡的好句好段和描写人拾金不昧的好句好段 1-the development of modern cities,both in population size and in functionality,necessitates the r1-the development of modern cities,both in population size and in functionality,necessitates the removal of certain existing structures whose history ca ( ) l was sitting on the sofa,my father came into the roomA While B before C Until D Since 麻烦大家帮我起个英文名,需要跟中文“娇”谐音,爱娇美丽娇娇宝都可以.谐音或者意思相近 It plays an important part__the development of the modern world.A.at B.on C.of D.in原因? out of pressure是什么意思?some people get tattoos out of pressure,这里的out of pressure是出于外界压力的意思还是为了摆脱压力的意思?希望真正懂的人回答,不要瞎猜.什么情况下是因为,什么情况下是摆 要列试哦 英语翻译着急中ing——, his wife has been______a lof of pressure on him to change his jobA taking B exertingC givingD pushing 作文《我最佩服的一个人》开头怎么写?写出自己的真情实感,语句要通顺!可以写谁? “Do you want to sell sugar water for the rest of your life,or do you want to change the world?” 现有0.270kg质量分数为10%的氯化铜溶液.计算:(1)溶液中的氯化铜的 物质的量是多少?(2)溶液中的铜离子和氯离子的物质的量是多少? This accounting principle requires companies to use the accrual basis of accounting .The matching求翻译 请问Your life can be what you want it to be... 氯化铜溶液中c(Cu2+)与c(Cl-)的关系? 猜一下,即给好评 is this your eraser? ( ).it's my sharpenis this your eraser? ( ).it's my sharpener.a.no,it isn't.b.yes,it is. 英语翻译甲方违约责任补充约定:甲方连续3期或累计6期未按约定的金额偿还贷款本息,甲方被视为违反本借款合同,本贷款合同项下全部借款立即到期,如甲方以定期存单出质,该质押的定期存 李商隐的嫦娥与李白的把酒问月两首诗对嫦娥的评价一样吗?通过比较,你对“角度”有 Come to the Hilltop Language School and change your life.全篇课文翻译, 英语翻译10.This Contract as written in English shall be interpreted and the rights of the parties thereunder shall be determined by the English text only the effect of which shall not be varied or affected in any way by any other characters writt 古诗《嫦娥》是李商隐根据什么节日流传的神话故事什么创作的 英语翻译.我感激不尽啊...我有急用的这是一篇文章的题目来的.硪想要整篇文章的翻译.而卟是单单一句话 小学生作文关于我最熟悉的一个人急400~500字 怎么写? Come to the hilltop language School and change your life的丛句和动词不定式 作文我熟悉的一个人,要500字以上的,我要开头和结尾, 怎么写啊 要理由---May I speak to Lucy?---This is ___________ speaking.A.her B.she C.she’s D.hers the man sitting in the car is my uncle.为什么用sitting. 这怎么写? 土屋安娜 Change your life 怎么翻译?Change your life Did I say that I want you? Did I say I need you? Did I kiss you that night? I don't remember who was next to me Boy you'd better watch your mouth You always lied to me I'm not gonna tr 赞美路灯的词和句子有哪些? cries in adistan是什么意思 Is this----------eraser A、he is B、he C、her D、she THE ORIGINS OF TOTALITARIANISM怎么样 猜猜这是什么 这两题要怎么做 连词成句:uncle motorbike man on my the the is 月饼英语怎么拼写“月饼”英语怎么拼写?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘