说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

Facebook发布开源项目Tweaks,让iOS应用开发更加便捷 移动开发创业团队再下一城!UCloud与飞流战略合作 【走进支付宝】即将开场,问题大征集! 开发者薪资调查:半数开发者工作十年方可迎来好“薪”情 沟通更畅快 HipChat推出1对1视频和屏幕共享功能 AMD宣布支持DirectX 12 为游戏开发者带来更多福利 开发者薪资调查:2013年哪种编程语言最赚钱? 苹果挖墙脚未果,黑莓高管跳槽被起诉 不看不知道:六个超大规模Hadoop部署案例 豌豆荚发布应用内搜索技术协议 兼容App Indexing Oculus 21岁鬼才创始人:收购不等于改变 Unite China 2014课程解析:Unity教育行业专场免费开放 Instagram技术窥探,助你打造响应式App 切勿妄谈Hadoop,以及4个数据管道打造实践 一周消息树:雨果·巴拉与小米的那些事儿 《近匠》轻邮联合创始人Wesley:移动App要有撼动企业服务的野心 Facebook开源MySQL分支,谷歌、LinkedIn、Twitter等大拿捧场 淘宝明风:基于Graphx的图计算实践分享 调查显示:2015年Android将统治全球操作系统 初创公司最爱使用的那些开发工具 仙剑之父姚壮宪强势加盟Unity游戏及应用大赛 智能可视化平台:DCOS之数据中心抽象 一周热点:5美分/GB的开源存储系统,及硬盘质量“最差”的希捷 英特尔收购可穿戴技术公司BASIS Science 设计移动App的十大技巧 皮皮网陈超:易用与性能兼备,Spark蓬勃发展! Sahara顺利毕业,将加速OpenStack与Hadoop的融合 十大将拯救地球的开源硬件项目 Android应用程序开发者需要了解的五个内容 百度轻应用插件CloudaMySQL诞生记 盘点Github所用的开源项目 CB6的project Manager 让人头疼! 关于截取字符串的问题 请大家帮我看一下这程序 这样的菜单效果怎么做啊!! SendMessage()的问题... 一个被挂起的进程(失去热点)还能收到键盘的消息吗? cb6 的 project Manager 让人头疼! 求助,Apache设置问题 高手请进!!分,不够再给!!是关于session的问题!! samsung550s显示器一问,在线等待…… RedHat 8.0 启动进不了XWindow视窗,怎么办呢???? 在C#中如何完成byte[]之间的拷贝,或者部分拷贝 请问Fuction(T("helpnet"),int i)中的T是和作用? 在客户服务器系统中如何向服务器中请求查询数据? 连接SQL——PLUS问题,用connect / as sysdba,抱错:服务句柄未初始化 关于安装程序的问题,来者有分 急,请高手赐教,在线 初学C++,我是不是需要详细的了解模板技术 游戏开始时的图形菜单和控件是怎么做的? 请诸位将已解决,但长期不结账的case贴在这里。 前几天搞了一个小东西 抱着试试看 在csdn上发布了 没想到今天一看 已经有十多个朋友捧场进行了下载 ######请问,不创建窗体,怎么读出窗体中的控件的属性? 答对给500分! 这个痛苦的程序已经到最后关头,请大家一定要帮我一把:) 100分求优秀MySQL技术网站。 位图菜单... 如何让自己的程序不在Window任务管理器里面出现? 关于DTS数据库导入的问题 网页设计 怎么出现了这么怪的问题?……大家进来看一下阿,来者有分!! 问大家一个语法问题;下面的句子是什么含义? 怎么样从文件里读出数据? 大家注意一下,看看里面的内容,如果有自己的ID,请尽快结贴,要不将被强制结贴! 在asp.net内怎样表示局域网络上的共享目录的路径??? 如何让测量结构可通过WEB方式查看, 急急急, 请各位WEB开发高手帮帮忙 再当一年程序员,然后去卖血。心情沮丧,散分。 怎样把jpg文件设置为墙纸? 查询出字段中最大值的记录????字段为(number)型!在线等候! 请问新改版的CSDN是用ASP.Net开发的吗???我有事要请教 有没有对格斗游戏原理精通的朋友吗? javascript如何定制子框架(iframe)的onkeyup事件,在线等,谢啦! 有人知道该怎样解决吗??(在线) 急告:怎样向打开的批处理文件的命令提示符界面中输入参数 无聊兄,海良兄请进 基础问题:怎样能将一个int型变量转变为float型? 高分请教 VB中访问SQL 2000的表格语句? 各位大哥,给点意见 win2000 advance sever与win xp!xp不能上网浏览网页 有WEB开发经验的请进 请问谁有ocr的相关资料? 偶这样的人为什么找工作难? “回也,非助我者也”表现了孔子怎样的思想教育? To protect the Earth,we plant___trees every year.A.million of B.millions C.millionD.millions of2.It's impoetant for us to protect the Earth____we have only one Earth.A.because B.because of C.why D.so原因! Tom is said to have turned___ doctor in ___ early twenties.a:/;/b:/;hisc:a;thed:a;his 描写孔子的成语一个 七年级英语学习; turn it on .此句中“on"的词性是副词还是介词? tell me why 中文翻译 Poor Tom,he had his pocket lost yesterday.这个句子是错误的,为什么? 英语选择:-Turn off the light.-_________?A.Excuse me B.SorryC.Pardon D.Don‘t you选择并说明理由! Tom wanted to pay for his meal at the reataurant,but the waiter said,"No,you do not have to do thatToday is mo publican is birthday,so all the food you had is on the house ." on the house can you tell me why why why why why 一首英文歌中的歌词. does mr smith live next door to you——Does Mr Green live next door to you?——No,but he_______A,used to B,used to doC,used to be D,used to live求分析其他选项 英语翻译如 “ILOVE YOU”就是 “爱拉乌油” 沪江开心词场背单词效果怎么样?可以同时背多语种词书不? Do the Tom live next door to you A used to B used to do 为啥不选B表示过去啊 动词加er变名词 ready 如何加er 变名词ready 如果要变成名词,变成准备者之类的 如何加 Tom was ill the day before yesterday.(对划线部分提问)划线部分是illWhat was ______ ______ Tom the day before yesterday The mother didn't know who_____for the broken glass.A.blamed B.to blame C.be blamed D.would blame为什么要选B呢? 英语翻译In my dream'children sing A song of love for every boy and girl The sky is blue and fields are green And laughter is the language of the world Then i wake and all i see Is a world full of people in need Tell me why (why) does it have to b How was the weather ______in the mountain yesterday? The mother didn't know who ___ for the broken glass as it happened while she是 to blame,还是 to be blamed tell me why 歌词急 求孔子的个人简介500字左右,我要写一篇文章, I don't know______or not.A.whether he is at home B if he is at home C that he is at homeD whether is he at home The mother didn't know who to blame for the broken glass.为什么要用 to blame 为什么不是who was to blame ,而是who to blame ,不是有个短语是 sb be to blame 为什么今天沪江的开心词场打不开? another 、others、 the other、other、anyother的区别 Tom ——(meet)John at the airport yesterday.横线上是填meet还是meets 谁能详细比较at issue,in debate,in dispute的异同?要有例句,要有自己的解释,不是从别的地方复制 We know (that) the earth is not round We know the earth (that) is not round 哪句话是对的从句的位置?上面的that都不省略.第二个为什么错了?我想让“我们知道地球”这前半句做主语,我不想让“我们”做主 The mother didn't know who ____ for the broken glass.A.would blameB.was to blameC.blamedD.blames求答案及原因, debate on 和debate about 的区别是什么?RT anyother,the other,the others,another怎么区分? Sam was___ ___(被要求)meet Jim at the train station yesterday. quarral与debate的区别最好是用法上的区别.非常感谢! 为什么vivos7it手机不能使用沪江开心词场 The mother didn't know who to blame for the broken glass as it happened while she was out.为什么用who 而不用whom啊? dispute,debate,contention这仨词啥区别?如果表示一个社会问题的辩论 应该用哪个? The window is made ()glass. We all know that the earth is round.同义句转换:_____ _____ _____ to all,the earth is round. another other the other等一类词有什么区别? somebody broken the glass of the window.(反义疑问句) somebody broken the glass of the window_____ ________? Tell me why I can't be there where you are another和the other有什么区别?(当代词讲的时候)A:I’m sorry I have lost the pen that you gave meB:Don’t worry.There is () 用哪个? The window is broken.Try to ( ) who broke it.A.find outB.findC.lookD.look for 英文翻译、I can not tell me why you are pro Let's ______ something to eat.A.to have.B.having.C.have.D.has nightwish - I want my tears back歌词大意 He is going to have a glass of wine with (Tom).对括号里提问 let me to have a book改错 when did tom lose his new pen这句话对吗 ---Do you know ___ Lily is at home?---No,I donnot know.A.that B.whether let me have a book Where is the boy __that__ arm was hurt by the window _____ glass is broken?这里要填什么关系代词 关于number和amount的区别1、表示数量时,the number/amount of sth哪个接可数,哪个接不可数?2、它们前面是接large/big?3、它们本身可数不?若可数?怎么理解复数情况? have,let's,carrots,Mary,把他们连词成句 i want my tears 单选-Dad!Tom's broken a glass!-Dad!Tom's broken a glass!-_____.Accidents will happenA.No wayB.Doesn't matterC.No trouble at allD.Don't mention it 与孔子思想教育有关的成语 the window is broken是系表还是被动broken是用于系表 还是用于被动 怎么区分 Tom’s computer is broken.He’ll have it _______.
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘