说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

借助“开源”东风 英特尔打造卓越“软实力” 深圳综合交通设计研究院张鹍鹏:智能交通设备领域已成红海 信息化是发展趋势 25个可遇不可求的jQuery插件 Web设计中对视差设计的误区 直接拿来用,九个超实用的PHP代码片段(二) 一周消息树:小米染指平板电脑凶多吉少 移动周报:Xcode 5.1更新、CarPlay揭秘,Apple很忙 可穿戴领域,创业公司的掘金点?还是滑铁卢? 搜狐SendCloud2014运维技术沙龙拉开帷幕 一周热点:选择Go语言的12个理由,九头蛇与大象之争 中国云计算大会PPT集萃(二):十位技术大牛分享平台打造技术 延迟250毫秒损失数百万美元,Hadoop系统该如何应对实时任务 IBM成立展示中心扩展大型主机的Linux开放生态系统 SDN解决方案总结:OpenFlow、虚拟机、OpenStack和VXLAN/NVGRE 第六届中国云计算大会将于5月20-23日在京隆重召开 大数据实战:站在JMP分析平台上的FIT足迹识别技术 首届SAP d-code大会在上海举办 【OSTC讲师专访】ZoomQuiet:因商业化而开源是中国开源界最大的囧处 亿元资金扶持+联手100家VC,腾讯的雄心壮志 美国史上最大IPO 能给阿里巴巴带来什么? 买Windows平板而非iPad或Android的十大理由 Framework7:不会Objective-C,也能开发iOS7应用 CocoaChina开发者大会 全新引擎Cocos 3d-x开源 Oracle和微软的抱团,以及对抗Amazon霸主的5个可用点 Agile已死 Agility长存? 论程序员的自我修炼 Github女员工因遭性别歧视离职 继七年iPhone、四年iPad后,苹果的下一城:Healthbook 普元CTO焦烈焱:专注于基础软件 在Spark上的深入实践 Python 3.4.0正式发布 未添加任何新语法特性 谷歌受困邮件挖掘丑闻,企图抹掉庭审记录 net中ToolbarItem集合编辑器使用 怎么得到ms sql server的本地实例(或服务)列表? IIS如何控制目录访问权限? asp.net 我不懂的问题,不是很难啊。 有关mysql出错的问题?? 牛人们,帮我看看~~~~~~ 调试INTERDEV中的PROJECT? 请问 GetCellDigital返回值有误 目录树记忆属性实现的讨论 关于用户自定义类的问题 自制控件问题 静态链接库中的资源 Xml的查询定位问题? 小高求助! 关于JAVA文件执行时出现的错误 如何在Datagrid中取得当前记录的某字段值? 如何取得下拉菜单项? 目录树记忆属性实现的讨论 我想去中国网通申请域名,他们是不是很吊,有没人用过啊 Help 删除一条记录?? 在研究软件加密 “咱们把最好的粮食给城里人吃,又进城帮助他们盖起了高楼大厦,他们为什么还瞧不起我们呢?” 老板今天叫我签合同 有关于TImage的图像显示速度 怎样让 Title 的显示时间延长????????? !!!!!!!!!格式化数据列 怎么这么慢啊 请问:如何在打印之前设定该次打印纸张的大小(很急,老板催货了,帮忙顶一下,谢谢)? 有什么办法可以把class文件反编译回java文件? 如何写到文件? 自己写一个函数,把2,3,4加到1,2,3中去,不重复 Netscape打印中文网页为什么不成功? 英文XP中装了东亚语言包,能显示中文了,如何输入汉字呢。。。。 接到一个电话 哪位大哥大姐教教我啊? Dll如何同控制台程序通信 RedHat Linux7.2下如何挂上RealTek8139网卡驱动????高分相送哦!在线等待!!! TreeView问题 求register_globals = On和register_globals = Off的不同用法(原代码) 斑竹,我是因为升级才散分的,有个穿红裤衩的支持俺了…… 一个新手的加急求救!谁先回答,就先给谁份,希望大家说的详细点! 写xml文件的不完整的问题 关于esqlc的unload 的问题。 关于方法覆盖,在线等候 一个实际开发中经常令人头痛的问题 在线,急,谁有3D MAX的下载地址?高分! 推荐IT公司调查 监测表记录字段变化情况 如何能够得知table中的字段是什么类形?(如字符,数字,浮点等) 动压润滑和静压润滑有什么优缺点,比如:如果动压润滑,在启动时会不会产生干摩擦,启动后才能产生油膜 现在我们有3、4二氯硝基苯这种材料,请问能生产出几种产品,需要和哪些材料反应呢? 防夫是什么意思 数字式万用表的表笔是红正黑负吗?以前用指针万用表,电阻档黑表笔接的是电池正极,听说数字式万用表电阻档的表笔正负和指针表极性是相反的, 在一个密闭容器内,植物进行光合作用之后生成了氧气消耗了二氧化碳能否再利用生成的氧气进行有氧呼吸如果是不就意味着循环利用了吗,那样的话植物能存活多久,回答好的重重有赏,哈哈 宜夫是什么意思 万用表上面COM口接黑表笔还是红表笔? 以“夫”和“泣”为例,分别探索它们的意义 依据浙江省暑假作业语文P3参考回答 夫起大呼中夫是什么意思 解释下文化是什么?最好是举例说明, 汉字与理性“夫”的意义 较夫是什么意思 100年后我们的生活会是什么样呢怎么翻译?what will our lives be like in 100 years?ORwhat our lives will be like in 100 years? 磁铁为什么会将电池的电力吸走?是因为什么原因会造成这种现象? 与夫为纲是什么意思? 你怎么认为100年后,生活会是什么样 动物避暑 以下关于会议记录与会议纪要说法正确的是A.会议记录是会议全过程的实录,发言的内容依照自然顺序展开,一般不作省略者概括处理B.会议纪要必须体现出指要性,对会议的内容有说该概括C.在 你认为100年后的生活会是怎样的 英语 网络类型里的“外A”“内C”什么意思? .在下列关于会议纪要特点的说法中,正确的有( A )A.纪要的性质取决于会议的内容性质与印发会议纪要的目的要求B.会议纪要有交流会议信息、介绍经验的作用,但没有约束执行的效用C.撰 十二烷基苯磺酸可以用乙醇溶解吗十二烷基苯磺酸与乙醇在水中会发生酯化反应吗 C/C++ class MyString{private:char *str_;char *MemAlloc(char *str);public:MyString(char *str="");};char* MyString::MemAlloc(char* str){char* tmp = new char[strlen(str)+1];memset(tmp,0,strlen(str)+1);strcpy(tmp,str);return tmp;}MyString::Mystring(char 多项选择:关于会议记录与会议纪要说法正确?以下关于会议记录与会议纪要说法正确的是?( )A.会议记录是会议全过程的实录,发言的内容按照自然顺序展开,一般不作省略或者概括处理B.会 十二烷基苯磺酸溶于哪些有机溶剂? 产品安全类别是c类什么意思 通过肺部的气交换由暗红的什么血变成鲜红的什么? 请举例说明招投标的意义.一定要举例说明,一定要举例说明. 妊娠C类什么意思 监控电源正极负极怎么接 带8个监控头子 招标有几种方式 分别介绍其含义 贵夫什么意思 监控摄像机为什么只接一根正极电源就能工作?12V直流电只接上正极就能工作,负极不接都没事,倒过来接就短路,工作不正常了 企业想购买一台旧家电,自用证明怎么写 家夫什么意思? 监控电源上那个正极负极可以随便接吗?正负极都有三个接口,带8个头子应该接哪个,12v15a的电源 西亚北非局势与当前国际关系态势,马哲的作业, 夫教什么意思 保温杯里面那层银色是什么材料 26.一切唯心主义的共同观点有( )①把精神看作世界的本原 ②主张社会意识决定社会存在 ③认为世界万物是“感觉的复合” ④认为世界是不可知 ⑤认为绝对精神产生万物[ 1分] A.①③⑤B. 今夫不受之天的夫的意思 转椅 转第几声 勉强 强第几声 上汽集团总裁胡茂元也有一套管理哲学,就是“长勺喝汤”理论,即想要自己喝到肉汤先要学会喂别人.胡茂元能够如此为别人着想,难怪美国通用汽车公司都盛赞他是中国企业中少有的善于协调 热的快有220V 110V的区别吗 通常用的220V的热得快可以直接用在110V电压上吗?安全吗 110V可以直接用在210V 以下正确描述面向对象特点的选项有()a封庄 b继承c多态 轴承支撑座因为是重载作业,要求轴承采用滑动轴承(轴瓦),且安装的位置具有倾斜即轴与水平面的夹角为4度请问刮瓦时有哪些注意事项,越详细越好》作为验收人注意哪些东西啊 初中数学统计请帮我解释一下第3问怎么回事.谢谢 (多选题)在C#程序中,有如下代码,则下面选项中说法正确是()public class A{}public class B:A{}A a=new A();B b=new B();A.表达式b as A的值为nullB.表达式a as B的值为nullC.表达式b is A的值为trueD.表达式a is B的 既然主观决定客观 为什么人犯错还是要在主观上找原因呢 子夫是什么意思 "强人所难"中,"强"读几声呢? ,初二物理力,仔细回答必有好评,谢谢 看夫相子的“相”字是什么意思 如何理解时间和空间的有限性和无限性 现在家用电器越来越多,冬天里开的电器更多了,我怕家电短路引起火灾,那家财险能负责赔吗? 命限要早夫晚子? 强人所难中的强读第几声?强占的强,和记载的载呢? 引力和磁场之间存在相互关系吗? 3,4-二氯硝基苯除了可以生成苯胺,还可以生成什么? 祭夫益子什么意思 韩考虑增加新一代战机项目预算 现为4德防长批评美国监控传闻 称欧美关系将俄总理七小时“安徽印象”澳洲一名男子涉嫌逼迫未婚妻致其死亡接韩考虑增加新一代战机项目预算 现为4浙江省政协公开征集提案线索 侧重群众湖北阳新县:两名女干部上班时间互殴难美国一女子梦游跌落地铁仅擦伤(图)美军将撤离阿富汗 价值70亿美元军需美国男孩携玩具枪街头把玩不肯放下 被美国扶贫粮食券遭诈领 部分受惠人折价调查称8成法国选民认为2017年大选日本最古老农村歌舞伎舞台将公演 祈祷日本明治奶粉决定停止在华销售 称市场澳大利亚一消防飞机救火时坠毁 驾驶员沙特暗示拒任“非常”是针对美国 恐与泰国咖啡摊主因招牌与星巴克标志雷同被俄外交部:叙之友文件旨在煽动破坏叙问日本导弹部队将现身宫古岛 拟搞大规模英国一新郎忘预约教堂 为遮丑谎称有炸外媒称叙政府将在24小时之内提交销毁五水共治知多少油箱莫名进水 新车无法发动这个长假,我们过得很有意义沙地人现在就吃“过年饭”,是真的吗机票价格大跳水,旅游好时机来了支付宝提现开始收费小记支招为你省钱小手拉大手,五水共治行孩子们走街访店、调查研究体验一堂大气古董买卖骗局,惊现富阳街头中信银行邀你来“尝鲜”千岛湖航拍玩家有了自己的“家”一湖秀水 福佑苍生“这里是天马牧场——沈墨回乡汇报展”你出“微信书”了吗?景点工作人员深夜为游客寻找失物秋天不只有银杏一堂一景,这里是村民的精神家园朋友圈里陷阱多,不要贪小便宜南湖区国庆食品安全零投诉愿你的笑里没有雨滴食品添加剂是魔鬼还是天使?迎春小学师
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘