说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

Delphi自定义消息应用一例 Delphi5中资源文件的创建和使用 Delphi的Bug-Tthread Suspend方法 Email服务器的简单实现-Delphi资料 Hook的制作-Delphi资料 INI文件的应用-Delphi资料 NT中的关闭计算机,重新登陆的实现-Delphi资料 Windows 系统方面-Delphi资料 Windows外壳扩展编程-Delphi资料 避免二次运行-Delphi资料 编程实现文件关联-Delphi资料 编写定制的文件流实现文件读写加密-Delphi资料 采用多线程进行数据采集-Delphi资料 产生临时文件名-Delphi资料 程序不出现在任务栏-Delphi资料 程序缩小为任务条右下角的小图标-Delphi资料 得到 Windows 用户名和序列号-Delphi资料 得到windows临时路径-Delphi资料 得到Windows用户名和序列号-Delphi资料 得到计算机的名字和ip-Delphi资料 得到内存的 Status-Delphi资料 得到上一个激活的组件-Delphi资料 得到在内存中运行的所有应用程序的handle-Delphi资料 调用控制面板项目大全-Delphi资料 动态改变当前显示模式-Delphi资料 动态改变屏幕分辨率-Delphi资料 动态建立不常用的对象-Delphi资料 对控制面板进行操作-Delphi资料 返回程序执行参数-Delphi资料 防止 Win95 显示严重错误-Delphi资料 改变操作系统日期-Delphi资料 订购了程序员全年杂志,不是送一本书吗?都已经出版这么久了,怎么还没有送过来呢?! 散分啦,快来抢分!谁能提供计算机中英文论文一篇,来者都必有分! 两个combobox关联显示(在线等) 关于我的yamaha 声卡在2003 不能用的问题 我用WIN98浏览器下载的文件都有错误。 Tomcat中的发行目录怎么设置! 初学者的问题. 关于最终用户许可协议 JPG图片怎么能实现部分透明? 如何用VB.net编写控件 关于ASP中对文本文件的skip(n)操作到底怎么做 关于SQL的菜鸟问题 大家现在用什么软件管理源代码啊。60分相送。 今年是考C 还是C++啊? 怎样判断一个线程已结束 我用new新建了若干个基类是cwnd的窗体cmywnd,然后想在每个窗体内定时让它们自己消失,我应该用什么函数?是destroywindow吗?最后还用不 vs.net 2003 中文版 的帮助MSDN是不是有问题? 清问这个SQL有什么错,还是FB1。0不支持? 是我的usb口的问题吗?? 怪事 急 路径绝对正确,为什么服务器只能下载rar 不能下载EXE 文件 已知,f(x)=arctanx,其二导f''(x)=(-2x)/(1+x*x)^2,f''(0)=0,试: 一个有趣的问题,请大家看一个小程序,来者有分。 这个写者优先是不是有问题????麻烦看一下,小弟实在看不出错在哪里 请问有没有办法得到[系统托盘]上其它程序的所显示的Icon?? 已知,十六进制(34.6)16=(28.75)10(十进制) 高手推荐几个Palm开发的网站?最好有源代码! 请教一个问题 触发器(加密)内容可以查看吗 怪,文件路径绝对正确,EXE文件不能下载,其它格式正常。 在编写的用户控件中公开所引用控件的事件怎么实现啊 这是我的usb口的问题吗? 考程序员前想先考全国三级,请问三级种哪个科目考C编程?何时报名? 调用DLL时候出现Bad Dll calling convention错误,为什么?代码如下 如何建立一个小数据库? 我想问下,网络技术到底是指什么??? 为什么会出现这个问题呢??急救??? 在不同操作系统出现不能正常运行的问题,和默认字体语系乱码问题 C# 静态类成员 新手请求各位前辈帮助 如何查询我连接到哪个数据库? 哭着请求帮助。。。。。页面显示问题!!在线等着 网络技术到底是指什么???? 我想在<<三国九>>里输入正确的中文,有法子么? 能帮我改改么? 紧急求助,请高手支招 请问在JTABLE中如何将某几行设置成可以被选择的,其他几行设置成不能被选中的? 请问怎样修改SDI框架的标题及去掉最大化按钮??? 在自定义的用户控件上公开引用windows控件的事件怎么做啊!!谢谢 2003中为什么IDE设备只能用PIO模式? 在FAQ里见到这样一句,不明白什么意思 怎么我用vc 的 odbc 做数据库时,工程名为try ,在工程工作区的“class view”面板里没有tryview类的? 请问我有一只直流3V变压器想降到1.5V有啥办法. 如图,小圆的半径为2厘米,求阴影部分的面积. 在希腊古典神话中,为人类盗得火种而遭受天神惩罚的英雄是谁? 盖斯定律的主要内容是什么?它对热力学基础发展有什么帮助?什么是盖斯定律,它能通过数学方法推导出来吗?3Q 你对"效率优先,促进公平"有什么评价? 对于青蛙吃蚊子这个行为属于什么行为?这种行为的三个特点1.是一个——.——的动态过程.2.是——的结果,对动物的——和——有着重要的作用.3.这种行为的产生是动物体内——因素——系 做两个底面半径3分米,高8.5分米的无盖水桶,需要多少铁皮 一个匀速转动的圆桶内壁上有一个物体随着一起转动并未滑动,为什么f=μF? 白玉蜗牛为什么老是在壳里不出来.温度也不低在20度以上 这个电路中,电荷是怎样流动的,电池的负极是什么概念,有什么作用 唐·吉诃德与现代概括一下唐吉可德,用现代的观点怎么看,和现代有什么关联 张华和李明在一圆形跑道上练习跑步.同时由一点出发,反向而行.……补充:相遇时,张华跑了250米,李明跑了150米.两人保持原有速度继续前进,当张华到达起点时,李明再跑多少米才能到达起点? 奔驰蓄电池负极线连接负极处上是什么模块,有什么作用?模块上印有MERCEDES-BENS a2215420718 圆锥筒 角速度如图,若A和B的质量是相等的.它们的角速度大小是否相同呢?我做过类似的题,貌似它们的角速度是不同的,可是我不太明白啊,这跟地球自转不是差不多吗.虽然线速度不同,但是角 a的平方-b的平方有什么意义? 某人把耳朵贴在50米长的铁管一端,另一人在另一边敲一下,某人听见两声,则这时间间隔多少, 唐吉柯德读后感 要 3000字左右急 急 DC-CIK 细胞免疫疗法是真的吗 3V 电池中的V指的是什么? 唐吉柯德读后感200急! 2平方的意义 一个圆柱形水桶的容积是251.2升,底面半径是4分米,做这个桶要多少平方分米? 求 一篇小学五年级「唐吉柯德」的读后感150字求 一篇「唐吉柯德」的读后感150字~200字 数学取不取等号问题.A=x|a-1 一个正方体内与十二条棱都相切的球体 如何画图 (我已经试过直方图和三维立体坐标了 感觉都不太好 ) 难道画三视图吗! 可以的话 上图吧 观察日记 青蛙的生活习性 数学真子集取不取等号?M={X|-1≤X≤7}、S={X|k+1≤X≤2k-1},S是M的真子集,求K范围.那个就是解答过程是 当S不等于空集时:1.2K-1≥K+12.K+1>-13.2k-1≤7以上三个合并在一起求范围 可是为什么2K-1 唐吉柯德的简介注意:是他本人的简介! 为什么园锥上各点的角速度不相等 A=x|-2 介绍"唐吉柯德" 既然光无法从黑洞中射出,那人类是如何发现黑洞的?狄紫依 我等你哦 多余的涟漪啥意思? 头灯的氙气灯泡,是G4 6V 8W 的氙气灯泡,3V的电源(2节5号电池)能点亮吗?还有是 6V 15W的,如果同样用3V的电源..用15W的是不是亮点. 请问一平米的铜导线能够承受多大的电流》?能够流过多到的电流? 导数求单调性什么时候取等号什么时候不取 LED,3V电池灯,怎么加电阻,使绿光点亮时间更久输出总电压为两节1.5V的5号电池.3V电压.电池灯串,一条灯串15颗LED.红色,黄色一线各4颗,共8颗 (红色,黄色单颗为电压2V) 绿光,一线7颗 (绿光单颗电压 盖斯定律反应热计算.已知下列反应的反应热:①CH3COOH(l)+2O2(g)=2CO2(g)+2H2O(l)快~已知下列反应的反应热:①CH3COOH(l)+2O2(g)=2CO2(g)+2H2O(l)△H=-870.3kj/mol②C(s)+O2(g)=CO2(g) △H=-393.5kj/mol③2C 什么叫多余 matlab如何用plot3画一个平面和球体的交线啊?如题,网上搜了好多,都是用极坐标的方法,表示方程有些难,转参数方程不太可能.新手没用过请高手指点.原方程比较烦我就不写了,举个例子吧:平面 在同一个圆锥面上是不是角速度一定相同? 尸体埋在很稀的烂泥里和埋在潮湿的土里 哪种腐烂的更快我的小狗已经埋了1个月了刚埋几天就下雨一直在很稀的烂泥里 我想问下她现在是不是都腐烂变臭了 已知小圆直径为4厘米,求下图阴影部分的面积 利用观察法观察,最容易被青蛙捕食的是处于下列哪种状态的动物?A.低空飞行的蚊子 B.静止不动的蝴蝶C.飘浮在水面的死昆虫 D.装死的甲虫 图像序列中的俩幅相邻图像,后一幅图像与前一幅图像之间存在较大相关性,这是什么冗余?A 空间冗余B 时间冗余C 信息熵冗余D 视觉冗余 北纬45度,在平面的球体上要怎么画呢? 在希蜡传说中,帮人类偷取火种的天神是谁? 请问一点五平方、二点五平方、四平方、六平方、十平方国标单股电线最大载流量是多少安? 在△abc中,ab=ac,bd是△abc中线,已知△abd和△bdc的周长之差为6,△abc的周长是30,三边长是多少 在传说中为人类盗火种而受天神惩罚的英雄______ 一块正方形木版有4个角,每次锯掉一个角,锯一次后还有几个角?锯2.3次后呢/ n次后还有几个角? 在△ABC中,AB=AC,BD是△ABC中线,已知△ABD和△BDC的周长之差为6,△ABC的周长是30,求这个等腰三角形的三边长 如果一个人可以用肉眼看见不可见光,那么在一个黑屋子里,外面是亮的,不可见光可以穿透进来,可见光不能穿透进来,那个黑屋子对于那个人来说是亮的吗? 为什么尸体在土中比空气中腐烂得慢? 盖斯定律 一个长方形怎么样剪一刀变成2个钝角三角形 牛顿运动定律与爱因斯坦爱因斯坦是不是证明了牛顿运动定律是错的? 给电池充电是正极接正极负极接负极还是正极接负极,负极接正极 求阴影部分的面积,大圆的半径是5厘米,小圆的半径是2厘米 "万事具备,只欠东风"本为一书中的故事,后来演变成一个成语,比喻_________.写出书中另一些故事的名称(写两个) 阿盟秘书长称支持卜拉希米就叙问题斡旋日本一司机醉酒驾车连撞5名女中学生后英国三百余名议员被指仍挪公款用于日常韩国总统朴槿惠巴黎会见联合国教科文组加拿大10岁男童发现超新星 为全球最中央印发通知要求开展“四风”突出问题存在环境违法 北京35家餐饮企业和单河南警方异地用警突查涉黄会所 搜出大南京富二代杀妻案开审 被告人称自首否澳12岁少年成商界奇才 开养鸡场月赚阿富汗总统批美击毙巴基斯坦塔利班头目想坐飞机逃生门附近座位?德航新规定要印尼组织攻击澳大利亚百家网站 抗议澳湖南永兴庭审致7死煤矿瓦斯事故案 1金冠网店20万元起步 揭开网店\"黑老师在大厦里办起\"培优班\" 课堂吉星鹏杀妻案开审 被告人称自首否认故伊朗称希望与“六方”就核计划开展严肃全球多地共赏日食奇观 罕见金边全环食埃及今天审判前总统穆尔西 数千支持者韩国航空国防展开幕 特种兵徒手斩酒瓶“激情之夏”常州旅游节明天开幕 47月5日,本报聚走驴友穿越军嶂古道雨夜开车上紫金山,轿车滑入山沟本报“作文写吧”要出书开始接受学生和金牛湖半岛 山水为邻的养生福地“70、80”后退休准备状况不容乐观行止有度 视野无疆 众泰T600常州广汽丰田致炫热销的秘密本报记者带你领略科技家居魅力昆山法院在全国首推 发发微信,就能C罗破门 葡萄牙2 1加纳仍出局国际新闻早报:俄美商定就伊拉克问题保普京授予俄共领袖久加诺夫勋章并赠送瓦乌鲁木齐:驾校学员弃学投诉教练“吃拿肖锋:中国人为何不敢直面痛苦的历史?反时尚的叶甫纳:当代艺术版的三农问题背水一战与见好就收专家推荐西班牙队输球 他们乱扔酒瓶发泄梅西喊“夺冠” 谁给的胆子有异秉的英雄
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘