说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

谷歌眼镜开箱评测:比想象更精致 Pinterest谈实战经验:如何在两年内实现零到数百亿的月访问 初创公司Instart Logic:专为电子出版商和网站站长解决“痛点” 未来即卖芯片又卖服务!Intel收购软件厂商Mashery 继MSN之后,微软又开始整合Skype与Lync服务 阿里将推AMOS智能机 斥资10亿鼓励开发App AMPLab开发重构的Hadoop版本Tachyon:吞吐量要比HDFS高300多倍 一名理科生的创业路 十大界面原型与布局工具 Google产品经理Kenneth Norton:如何与工程师共事 如何创建自适应系统来增强用户体验 Jolla下月展示首款Sailfish手机 将重点发展中国区 海外1GB大容量游戏,国内渠道如何分发? 真正的能源大户是WiFi网络 数据中心只是“伪军” CloudFlare创始人传奇人生:7岁编程,法学博士,获哈佛商学院最高荣誉 2013云计算深入实践 jQuery 2.0发布 不再支持IE 6/7/8 Google再发力,更新Dart M4! 【多图】鼠标、光驱等13个即将消失的PC技术 直击OpenStack美国峰会:分享五大经验收获 Project Savanna:让Hadoop运行在OpenStack之上 看Go桌面技术副总,如何解读Facebook Home 增长最快的游戏公司Supercell 你学得会? 移动周报:为什么我们出不了IT神童? AWS、VMware和OpenStack谁是赢家? 消息称苹果正在寻找新任CEO取代库克 请别人云亦云 PC仍然重要且活得很好 比预想晚几年!IBM x86服务器或终将卖给联想 App推广的节操呢? iMessage垃圾短信产业链暗访 Apkudo CEO访谈:免费为Android开发者提供测试 Web API核查表:设计、测试、发布API时需思考的43件事 如何建立与有数据库密码的ACCESS数据库的连接,错误提示:没有可安装的ISAM 指的是什么错误 在php中,如何实现发送邮件?在线等候! jsp报错信息,谁能告诉我到底是什么错误 在VB.NET中实现DLL文件 当一个事件发生的时候如何调用有参数的函数? 怎样才能完全彻底的干掉QQ的那个该死的Tencent Explorer EXELE这个函数哪位用过? j2ee:为什么我的ejb老是在编译运行的时候报错“拒绝访问”,那位高手尽快帮忙,小弟不胜感激 不是问题,不的不转行学ASP,发发感慨! 请问谁有符合“c99标准”的编译器 关于盘符的问题,即光盘盘符为何在硬盘盘符之前 冷门问题,会者请多多指教!(发言者都有分) 这样的sql语句怎么写?::::::::::::::::::::>在线等待!! VB--->传真???? 用VB如何收发传真,请各位赐教....(急) 谁知道这个问题的答案? 请问怎样把主框架的两个滚动条去掉?? 那有JSP上手的源代码学习下载。在线等待 知者不难的问题---oracle里有没有像sql server那样生成diagram(表间关系图)的工具? ASP初建网站外,还可以用在哪些方面? 请问序列号在那?? 如何建立与有数据库密码的ACCESS数据库的连接,错误提示:没有可安装的ISAM 指的是什么错误 各位前辈,如果在公司的试用期觉得工资低了,怎么样和公司谈好一点?谢谢! 为什么取不出id字段值! 如何讓SELECT刷新本頁時現有的數据不會消失? 请问这是怎么回事? c语言的源代码!哪里有? 如何在正在运行的窗体中实例化一个控件。 关于向文件中写入表格的问题!谢谢! 爽,两天来在VC版得分2205分,现在偶的专家分有3406了,希望明天能达到5000,这样我就有一个星星了 有人能给我详细解释一下GDI位图和DIB位图的区别吗 smilejiangjun(smile将军)请进 打印问题!! 快来啊,哥哥! 请问,怎样将.fox的文件变成.prg程序 各位前辈,如果在公司的试用期觉得工资低了,怎么样和公司谈好一点?谢谢! 在安装好的机器中提取声显卡驱动吗? 大家有没有兴趣在北京举办一次聚会,大家探讨Java技术? 数据库中的某个字段的数据中包含  ,当把该字段绑定到dropdownlist后,  就显示不出来了.? vb怎么处理导出的历史文件 用户控件问题?急、急、急??? 原文:文字接龙---喜欢玩的请接下去!(转) CInternetSession.OpenURL()打开这个网面,只能得到93字节,怎么处理??? 求救:如何低级格式化硬盘,用什么dos命令? delphi+mapx的问题,求救! 读取数据库怎么这么慢?是不是我的方法不正确? form提交数据后,另一页取值为空?200分相送!! 关于windows.net server的安装 打印问题!!(50) 如何编程获得win2000本机的MAC地址?不用Netbios的方法阿,谢谢 讨论一下,对于个人来讲计算机可以帮助我们做什么? 谁有WS-FTP pro 7.5的注册码! 蛋白质的基本组成单位 配电系统图上Pe=132.5kw ,Kx=0.7,Pjs=92.8,ljs=175.3 怎样计算的 在三相四线制中,当三相负载不平衡时,三相电压数值相等,但中线电流不为零.错误在三相四线制中,当三相负载不平衡时,三相电压数值相等,但中线电流不为零.错误 ,错在哪里了?另外中线和中 甲,乙两粮仓,甲仓的存粮相当于乙仓的5分之4.现在把乙仓的存粮取40吨运进甲仓,再运进甲仓20吨粮食,这时甲仓的存粮和乙仓相等.问甲仓原来存粮多少吨?方程解, 求:电阻、电容、电感各大生产厂家排名,越详细越好,顶级品牌有哪些? 摩托车 发动机的工作原理(详细说明) 一次函数y=-2x+4的图像经过第( ) 象限,y的值随x的值增大而( )一次函数y=-2x+4的图像经过第( ) 象限,y的值随x的值增大而( )图像与x轴交点坐标是( ),与y轴的交点坐标是( ) 请教电容,电阻,电感,的作用,电阻与电感是一样吗,不是有什么区别本人初学电子,想知道那三样怎么用,怎么测好坏,尽量说的简单易懂,谢谢,请大家重点讲下电感,它其中的变化原理也讲清楚, 如图,CD为半圆的直径,CD=4cm,弦AB//于CD, 一次函数Y=2x-3的图像不经过第几象限 Pe=60kW Kx=0.95 Pjs=57kW COS%%c=0.9 Ijs=96. 变压器的工作原理是什么呀?请详细说明,希望能把用到的原理说明.因为可能有的我没有学过详细讲述工作原理 如能量之间是如何转化的?```````` 一次函数y=2x-4的图像是,它的截距为一次函数y=2x-4的图像是 ,它的截距为? 电施图中Pe=96.0KW,Pjs=76.8KW,Ijs=137.5A,cosΦ=0.85,Kx=0. 为什么人有嘴巴? 函数y=-3/2x-4的图像过第___象限,且y随x的增大而___ 一道高中物理题,求问我过程中哪步做错了?某商场安装了一台倾角为30度的自动扶梯,该扶梯在电压为380V的某商场安装了一台倾角为30度的自动扶梯,该扶梯在电压为380V的电动机带动下以0.4m/s的 什么时候人有2个嘴巴?如题 NPV,IRR怎么计算? 某商场安装上一台倾角为30度的自动扶梯,改扶梯在电压为380V的电动机带动下以0.4米每秒的恒定速率向斜上方动,电动机的最大输出功率为4.9KW,不载人是测得电动机中的电流为5A,若载人时扶梯 男人用嘴巴添女人下面会怀孕不? 房地产的IRR和NPV怎么计算 人在倾斜角为30°的自动扶梯上以恒定速度随扶梯斜向上运动,电动机对人的功率是多少?人质量m,斜向上速度v.急!!!在线等,扶梯给人重力势能,给人动能吗? 这时存在摩擦力吗?如果存 隔离开关的爬电距离是如何定义的? go to get some 有哪个英语高手教我下! 某商场安装了一台倾角为30度的自动扶梯,该扶梯在电压为380V的电动机带动下以0.4m/s的恒定速率向斜上方移动,电动机的最大 问题补充:输出功率为4.9kW.不载人时测得电动机中的电流为5A,若载 如何用惠更斯原理解释波反射折射惠更斯原理 到底起什么作用 ,我想知道 Go down to business.为什么翻译成:言归正传? 设椭圆中心为原点O,一个焦点为F(0,1),长轴和短轴的长度之比为2:1 求椭圆方程设经过原点且斜率为t的直线与椭圆在y轴右边部分的交点为Q,点P在该直线上,且|OP|\|OQ|=2√3,求P的坐标 帮忙介绍质量比较好的贴片电阻电容的牌子最好能提供价格,主要有0805 0603 用go down a storm造句用go down a storm(深受欢迎)造句, 一个焦点把长轴分成长度为9和3两段的椭圆是什么意思 椭圆方程是什么? 求详细解答~! 贴片电阻,电容哪个品牌好?贴片电阻厚生和利智哪个好一些?贴片电容三星,国巨哪个稍好些? 已知函数y=-2X+b,当x=3时,y=1,则直线y=-2x+b在y轴上的截距为? 方案B与A的差额内部收益率△IRR=15%,若基准收益率i=10%,则: A.NPV(10%)b-a=0 B.IRRb-IRRa=15% C.NPV(A.NPV(10%)b-a=0 B.IRRb-IRRa=15% C.NPV(15%)=NPV(15%)b D.NPV(10%)a=NPV(10%)b 注:小写a,b为下脚标,因为不会,所以以小 贴片电阻电容都有哪些品牌的啊?分别美国,日本,台湾,和国产的都有哪些啊?急用, 请问什么内部收益率(IRR),什么是投资回报率(ROI)?有何主要区别?为什么说“ROI的重要性远逊于IRR,因为它没有对获得回报所需的时间做一个清楚的解释,并且不能用来衡量企业全部成本的 经济学 对于某一现金流量,若计算得内部收益率IRR=10%,则下列哪个贴现率对应的净现值大于0对于某一现金流量,若计算得内部收益率IRR=10%,则下列哪个贴现率对应的净现值大于0A.10% B.11% C.8% D.1 贴片电容,电阻怎么认 财务管理中ROI NPV NPVR PI IRR的英文全称是什么财务管理中ROI NPV NPVR PI IRR的英文全称是什么?他们的中文释义分别为:投资利润率、净现值、净现值率、获利指数、内部收益率 fall asleep ,got to sleep ,went to asleep ,were sleeping 的区别 在一个周长为50.24cm的圆内画一个最大的长方形,这个正方形的面积是( )平方厘米. IRR与NPV的关联 Pe=24kw Kx=0.8 COSΦ=0.9 Pjs=33.6Kw Ijs=195A 应该采用多大的电缆 是不是YJV 3*25 的线 在周长24CM的正方形里面画一个最大的圆,这个圆的面积是( ) 长轴2.83M短轴1.98M用绳子画椭圆两个钉子的距离是多少 Pe=148KW Kx=0.8 Cosø=0.8算电流求电缆截面积 一个圆扩大后,面积比原来多了8倍,周长比原来多50.24cm,这个圆原来是( ).不知道它求什么. 1、一次函数y=kx+b(k≠0)的图象经过点(1,-1)且与直线2x+y=5平行,则此一次函数的解析式为___________________,其图象经过_______象限.2、一次函数y=kx+b的自变量的取值范围是-3 SUMPRODUCT公式条件问题用SUMPRODUCT公式加一个条件.原来的是这样的=SUMPRODUCT((项目进度管理表!$B$4:$B$29999>=DATE(2012,2,1))*(项目进度管理表!$B$4:$B$29999 三相不平衡度应该如何计算? 一次函数y=kx+b图像与直线y=2x+3平行,它又与直线y=3/1x+4有相同的截距,求这个一次函数. 请教Excel统计函数的运用.可以用这两个函数来解决吗?COUNTIFS SUMPRODUCT. 望字组词再用词造句 5个 急望字组词再用词造句 5个 急 蛋白质的基本组成单位是什么?基本结构特征是什么样的 是不是讽刺我很难看?找事呢? 下列说法中,正确的是()a 近似数1.70和1.7的精确度是相同的 b 近似数六百和近似数600的精确度是相同的 c 近似数35.0是精确到个位的数,它的有效数字是3和5两个数 d 近似数35.0是精确到十分位 组成蛋白质的基本单位是什么 (-7{n}b{n}){2}*(-ab){3}-[5a{2n}*(-a){3}*b{2n}*b{3}] 一个游泳池长50米,宽2米,如果每小时放入200立方米的水,多长时间能达到1.8米 会讲的最好 还要有单位的
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘