说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

Android UI开发专题(四) View自绘控件 Android UI开发专题(三) 各种Drawable 提高Android开发效率-Eclipse快捷键大全 Android UI开发专题(二) 之绘图基础 Android UI开发专题(一) 之界面设计 Only the original thread that created a view hierarchy can touch its views的相关 Android上的Back键事件捕获 Android蓝牙API之BluetoothSocket类(2) Android蓝牙API之BluetoothSocket类 Android蓝牙API之BluetoothAdapter类(1) Android蓝牙API之BluetoothAdapter类(2) AndroidManifest.xml文件剖析 (三) AndroidManifest.xml文件剖析 (二) AndroidManifest.xml文件剖析 (一) MOTODEV初体验,高效Android开发工具 Simple让BASIC语言编写Android程序 MOTODev试用报告- Android开发效率之源 安装MOTODEV Studio for Android版方法 Android开发工具-motoDEV studio介绍 Android过后Chrome OS又是如何开发? Android安全模型导致开发时功能受限 Android导出一个JAR库 APK汉化原理及方法 APK文件格式分析,Android反编译入门(一) ApiDemos中的Android Widget例子解析 APK签名导出向导 - Use the Export Wizard 剖析Android自带Widget - Music播放器 剖析Android自带Widget - Clock指针钟表 C#取得Excel工作簿工作表名称 C#中用Automation自动化方式对Excel的操作 VB如何打开或保存为有密码保护的Excel sheets工作表 劳烦各位介绍一下业界最流行实用的汇编,C语言编译器,我是在校生急需指导! Rebar 移动的问题!烦死我了! 高手留步:请问VC中获取当天日期的函数是???还有比较两个日期所差天数用什么函数??? 请问怎样才能将vb中的date型的内容转化为sql server的datetime型呀,谢谢大家了 请问,怎样在 FLAH5 中直接插入 MP3,并改变 MP3 的音质? 利用delphi连接远程sybase数据库,在多用户操作情况下为什么会产生数据库死锁 看了一下SL275(2001年5月)的课程概述,发现里面没有了Applet了,SCJP是不是舍弃了它了? 有关JAVA的Package,ClassPath的讨论,诸位看过来 COOL!COOL!COOL! what's wrong with the SOCKET define? 使用vb通过NotesSQL for odbc连接过domino数据库时总出现如下错误“ [Microsoft][ODBC 驱动程序管理器] 驱动程序的 SQLAllocHandle on SQL_HANDLE_ENV 失败”,有谁遇到过吗?如何解决? 在SDK中,如何判断对话框中的CheckBox是否选中? 请教如何修改如何提交数据(一对多的表) 如何在delphi里实现文件(比如文本文件)从一台机器传递到另一台机器?比较急! 不知道主板集成声卡的型号,又没有驱动程序?怎么办?主板是ASUS CUSL2,I815E CHIPSET 想问问大家pb自带的例子中有没有关于权限的例子 怎么样吧jpg图片转成ico?????? 听说程序员结婚生孩子多数会是女孩,是不是真的?,好像与辐射有关哦 那里有windoes版的ftp源码 不知道主板集成声卡的型号,又没有驱动程序?怎么办? 主板是ASUS CUSL2 ,I815E CHIPSET 请问哪里有编写多线程安全对象的资料?(72分) 通过界面输入大量数据,界面如何设计??? 在Red hat 7.1如何安装GBK字符集! Focus(老鱼)回答得50分 请教网站的建设计划如何写呀? 请问下面的DELPHI程序如何转为CB 帮忙测试! 怎样得到硬盘序列号 关于Web开发…… Notes Client 待办事宜的定时刷新问题 都是面向对象,怎么C++和JAVA对此代码的结果不同?欢迎高手讨论! 关于//{{AFX_??? 的问题 ---> 如何动态建立字符数组? 都是面向对象,怎么JAVA和C++对此代码结果不同?欢迎高手讨论! 如何解决线程函数与窗体的交互 vb+SQL2000的奇怪出错提示 请问怎么作出jar文件? 急!!!谁有RTF文件格式中元素说明?给一份!谢先!!!!70分奉上!!! java plug-in 1.3.1是什么东东?如何用? ASP中用foxpro数据库,删除记录的问题,我急。。。 急急急 兄弟我用HTML Help workshop 制作帮助,无法显示图片和默认页,那位来切磋一下好吗 怎么判断打印完毕和打印故障和取消打印的状态? php网络程式的问题。 用C++如何实现多进程ftp功能? 加了个硬盘,整个系统全乱了,怎么办? delphi 6手册组,我翻译好的文件无法上传,谁知道该怎么办? 我不想用第三方控件,如果我想使把Panel中的内容达到一个清屏效果(便如由上向下刷新,但最前有一些粉碎状效果,或是百叶窗什么的。) 有关异常的问题 如何用最简单的方法控制在数据窗口最后一列按回车键增加一行? 哪有ASP的技术手册呀?有关组件用法的 8位无符号二进制数能表示的最大十进制数是多少 计算:|3-π|+(根号16-8π+π^2) 我到底怎么了?我上英语课和数学课时头就晕 什么也想不起.特别是做题时.我的生物是全班最好的我怀疑是我的智商有问题,我初一成绩全班前十名 现在初二我的英语降了很多分.数学更是搞不 如果在关于x,y的多项式(ax²-3x+by-1)-2(3-y-3/2x+x²)中,无论x,y取何有理数,多项式的值都不变,求4(a²-ab+b²)-3(2a²+b²+5)的值 计算:根号下(16又25分之16) 已知多项式ax²-bx+c.当x=-2时.它的值是0.当x=1时 它的值是0,当x=2时,值为8,求a,b,c的值 已知:多项式x³+3x²+ax+b除以x²+x-1,余式是2x+1时,求a和b的值 英语高手进下“ talking about joining a sports club.Talking about a person.” 帮完成这个对话.talking about joining a sports club. Talking about a person 这个就是往下连接.说5,6句可OK了.谢谢/ 已知多项式A=x²-x+b,B=x²-ax+3,且A-B=x+2,求a,b的值. What do you know abount English food怎么回答 what about now的英文歌词越快越好, 在一个非零无符号二进制整数之后去掉一个0,则此数为原数的()倍? 16个2进制位可表示整数的范围是? 十六进制数-61的二进制原码是?八进制数-57的二进制反码是?请写出具体计算过程 若在一个非零无符号二进制整数右边加两个零形成一个新的数,则新数的值是原数值的______.怎么算的?麻烦说下方法 what about the people you know用英语怎么回答 我基础不好我上数学课认真听了一节课做了一节课,为什么下课以后感觉头晕晕的脸也发热呢,这是怎么回事? 如果在一个非零无符号二进制整数之后添加2个0,则此数的值为原数的4倍 2倍 1/2 1/4 what do you know about Canada?的回答(英文) 学高数学地很晕怎么办? 如果删除一个非零无符号二进制偶整数后的2个0,则此数的值为原数4倍 2倍 1/2 1/4能分析一下吗 英语翻译同义句似乎是3句,还有一个是what do you like about him,另一个是什么?好像是how开头的 上数学课经常头晕怎么办如题,知道多少说多少 若在一个非零无符号二进制整数右边添加两个0,形成一个新的二进制数,则新数的值是原数值的( )倍.若在一个非零无符号二进制整数右边添加两个0,形成一个新的二进制数,则新数的值是原数值 我高中的时候选择错了.到了理科.只好坚持了.问下大学有分文理吗.我喜欢文科的RT.我苦苦苦,哭哭哭, -2^2*根号8+3根号2(3-2根号2)-(根号2-1) 请以 What a good friend should be like 为题 写一篇英语作文 80词左右 试说明16位二进制表示的无符号整数和有符号整数说能表示的数值范围 我喜欢生物,该选什么 选文科会不会比较难学啊? |1-根号2|-|根号3-根号2|+|根号2-根号3|+|根号8|RT. 英语作文 Our English Club提示:1.我去年加入英语俱乐部。对我非常有用,它教我如何学好英语;2.还能观看英语电影;(watch the English films)过去式;3.在英语俱乐部里有很多的书籍和报纸,我 女生学文好还是学理好,我喜欢英语,语文成绩还好,数学也还行,但文综不太爱背, (2/3)^(-2)+(1-根号2)^0-(3又3/8)^2/3第一题 what about ()(join) the school English club ()(improve)our speaking skills 我喜欢物理,化学,地理,可是语文数学不行怎么办? 如果关于x,y的多项式(ax的平方-3x+by-1)-2(3-y-3/2x+x的平方),无论x,y取何值,该多项式的值都不变,求多项式4(a的平方-ab+b的平方)-3(2a的平方+b的平方+5)的值 We are going to talk about _________(design)a poster for our English club .及急适当形式填空!急要有理由!为什么这样填 16个二进制位可表示整数的范围是多少?如何计算?麻烦列出计算的详细过程. 如果在关于x,y的多项式(ax的平方-3x+by-1)-2(3-y-3/2x+x的平方)中,无论x和的取值是多少,多项式接着:的值不会变,求4(a的平方-ab+b的平方)-3(2a的平方+b的平方+5)的值9平方的符号不会打) Our new English teacher has _____________ hair.black long beautifulbeautiful long blacklong beautiful blackbeautiful black long 如果关于x,y的多项式(ax的平方-3x+by-1)-2(3-y-二分之三x+x的平方),无论x,y取任何数,该多项式的值都不变,求多项式4(a的平方-ab+b的平方)-3(2a的平方+b的平方+5)值 获奖英语短文 Hao to be a good student(有中文翻译) 为什么大部分女生很讨厌数学和物理 计算:(16根号3/2-5根号1/2)+(1/4根号8-根号2/3) 一个字长为6位的无符号二进制数能表示的十进制数值范围是理由,过程,复制滚蛋 为什么我会喜欢化学而不喜欢物理?数理化是一家, 求一首英文歌!开头还几句是what about什么什么开头还几句都是what about什么什么what about什么什么然后高潮是略微带点假声的:啊~~~声明是男歌手唱的,英文歌曲.来源是昨天看的天天向上里地球 英语作文 Good manners要80字左右的英语作文 我语数英还好,但我喜欢历史,对物理不太感冒.那到底学文还是理 计算三次根号-64/125+根号1又11/25-根号16 -4/3根号8/(2根号8*1/3根号6) 实数7分之22,0,sin30°,6分之π,3分之根号二,cos30°中,无理数的个数rt22/7开出来不是无限不循环小数吗?自己在这方面很迷糊. 你的呢?英文 是 What about your?还是What about you? 根号12-根号6*根号8+(1+根号3)(1-根号3) 在实数-3分之2,0,根号3,-3.14,根号4中,无理数有几个. (根号2-1)^0-3次根号-8*根号16+0.25^10*4^4计算 我的头非常晕用英语怎么说 8位二进制数,表示无符号的十进制数,范围是 ;表示带符号的十进制数,范围8位二进制数,表示无符号的十进制数,范围是 ( ) ;表示带符号的十进制数,范围是( ) why don't you join in an english club to practice speaking english(用 what about改写原句) 我已经头很晕了 英语怎么说?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn