说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

一周消息树:CES2013揭幕 科技巨头纷纷发力 2012专利排行榜 IBM位列第一、Google增长最快! 微软赞黑客并称Windows RT越狱非安全漏洞所致 周报第46期:GitHub历史上最糟糕宕机事故回放及反省 著名计算机黑客Aaron Swartz自杀身亡 移动周报:移动互联网行业技术趋势前瞻 旁门左道:让移动游戏下载量暴涨的邪门功夫 可植入身体:“可穿戴计算”时代来临 Web服务器份额:Apache仍居首,Nginx将超IIS 防税务欺诈:挪威财政部将开源收银机代码 响应式设计实战:3人+1.5个月 IE10优化版cnBeta诞生记 不听乔布斯劝告:“不专心”的Google照样干得好 躲过一劫!苹果不锁杂志类APP介绍截图 Oracle发布软件更新修复Java漏洞 设计师将吞噬工程师吗? 开源产品系列:小巧灵活的Web框架web.py Windows Server 2012 VHDX格式揭秘 Rovio将赶超Zynga 成为全球最受欢迎游戏公司 Netflix基于AWS的大数据平台Hadoop架构解析 微软开始提供Windows Embedded测试版系统 Aaron Swartz自杀原因存疑 引发互联网连锁反应 重金吸引开发者 BlackBerry10应用36小时增1.5万 把数据中心搬入“空间站” Dell和Intel对OpenStack新兴公司Mirantis投资 快讯:马云自5月10日起不再担任CEO职务 Web工程师必备的43款可视化工具 中国电信天翼开放平台2012年度数据:API调用量破亿 iOS走向开放:UC浏览器iPhone版实现云下载 让Dreamweaver支持cshtml (MVC Razor环境) iOS付费榜首:日历应用Fantastical开发者专访 玩转AdMob移动广告:捕鱼达人的猎财之道 我写了一个窗口的应用程序,如何让它不能用ALT+F4关闭。 请问怎么用C#开发出有winamp风格的界面? CB中调用StatusBar1DrawPanel为什么参数设置不对呢? 请专家指点. 请问什么是基于web的GIS的多媒体信息系统 一个关于存储过程的问题!! 关于硬盘分区的问题 满分相求--问题很简单 如何将enter转换为tab? 请问有没有 for access 的 jdbc driver? 求Oracle的资料网站。(100分) 如何在image控件中加载.pcx图形文件 ???为何在WIN2000终端服务中,客户端打印机乱码? 硬盘的转速写在哪啊? vc怎么连接数据库,希望能有一些代码? 什么工具能从代码直接生成流程图? 软件狗的问题,有兴趣的请进 为何输入汉字时会出现乱码?急急急!!! c++builder中 StrPCopy()头文件是什么? 怎麼調用jar文件中的類和函數 asp.net中还像asp一样可以用javascript吗? 这样的.xml 中如何在xsl中查询出<d:Title>值为"收文登记"的纪录??? 请问导航图如何实现?(玩过红警的更容易解答) 如果女友考上研究生,而我的学历低怎么办? 大虾帮忙,ListCtrl的列名为什么不能显示中文? 多谢各位,为什么http://IPaddress/exchange能看到内容,但是http://IPaddress/exadmin看不到内容 数据窗口怎么获得列的个数和怎么判断列的类型为DropDownDW类型! 求助 outlook&&ie6(放分) 我写了1个ip变域名的软件,发现现在都用防火墙,根本的不到域名,能不能用dns服务器或者其他方法写代码获得? 难道真的要去请电脑技术人员来帮忙了吗?急!急!急!!! 为什么有两个连接查询变量就不行呢代码如下: Rose进行JavaOOM的超级菜问题No.1:如何设置一个类MyButton成为JButton类的子类 如何在显示汉字 有关staroffice的问题 谁能告诉我完整的正式版本Dream_controls_collection for D6的下载地址呢? 百分求解有关ODBC的问题 那位知道最好的局域网聊天软件是什么? 数据库的问题 请问PB远程备份,恢复SQL SERVER2000应该怎样实现。(备份到本地硬盘)高分赠送 VCKBASE改版了,已经重新开张了!感激我的快给分!多少不限,呵呵... 那里有FrontPage server extension下载? 我什么我的程序从数据库取不出数据 C++Builder 中有没有关于SNMP 的控件啊? if not myrecord.bof then中的BOF是什么意思啊 Sybase数据库设备存放的地方? 高分救助:300分 一個通用的聯結sql server不能運行,help me 请大虾帮忙!这个SQL语句怎么写?多谢! 求教如何将enter转换为tab? win98下如何使用命令行方式共享文件夹 请问一个关于Iterator的问题. 卤代氢通常是什么颜色 怎样测人体是成酸性还是碱性 下图是几种常见物质间的反应及转化关系,物质B是一种红色固体粉末,该图体现了化合物F的四种不同化学性质只要把ABCDEFG这几种物质标明就可以了.图拉 酸根中不一定含有氢元素说明理由是氧元素 怎样测试自己是酸性体质还是碱性体质最好有那种可以做有关自己日常生活习惯的题来相对准确的检测出来的那种……有点麻烦, 中学红色粉末化合物有哪些? 我的世界手机版0.9.5.沙子电路,小麦电路是什么 怎样测试体质是酸性还是碱性? 在常温常压下,A是无色的有毒气体,B是红棕色粉末,C、E是金属单质.反应1、2是工业上的重要反应.A+B 在高温条件下=D+E B+C在高温下=E+F D+NaOH=G G在高温条件下=G E+盐酸=H F+盐酸=I I+过量 知道笑气中,氮 氧两元素的质量比为7:4,求笑气的化学式质量比N和O是7:4那么个数比是7/14:4/16=0.5:0.25=2:1即N2O 7/14 4/16 是神魔 14,16是什么 粽子要怎么包啊! because it allows people to get closer to them翻译拜托了各位 笑气中氮元素的质量比为7:4,则该物质氧化物的化学式为 怎么测试自己是酸性体质还是碱性体质(用什么仪器)?用什么设备检测?检测身体的什么器官组织?判断酸性体质的指标是什么?(例如血液的PH值,淋巴液的PH值等等)不要来和我说“感觉身体 today is Saturday .But many people don't go out to ( ) the weekend ,because it's snowing heavily.itis( ) outside.On such ( ) days,most people ( ) staying at home.Susan with her children stays in the warm house,too.She's a ( ) in a big hosital. 有癌症怎么样让酸性体质变为弱碱性体质 如何判断自己是酸性体制还是碱性体质 I want to be a r___ because I like talking to people and writing stories根据句意及所给的首字母填写单词,另外还有:My parents and I like eating pizzas.We o____ a big pizza every Sunday .--Do you m___ my smoking here?--Not at all. 怎样做一氧化二氮(N2O,又名氧化亚氮、笑气)请详细点,硝酸是浓的还是稀的 什么东西能把酸性体质慢慢变成弱碱性体质 秋天的田野,麦子金黄,一派丰收景象(改病句) 一天的生活 英语作文主任公叫fangfang 我的世界什么是牌子电路,仙人掌电路?这两个电路还有甘蔗电路的具体作用是. 秋天的田野,是稻谷飘香的季节 修改病句 想生男孩的人,为什么女性多吃碱性,男性吃酸性食物 笑气的化学式是? 秋天 秋天是个丰收的季节,我喜欢秋天.因为我喜欢秋天的田野,秋天的田野是金黄色的,远远地看去地上好像你笨啊 求亚硫酸根离子和硫酸根离子符号 怎样使酸性体质转变成碱性体质 怎样将体质由酸性变成弱碱性? 我的世界告示牌怎么做 如何区别酸性体质碱性体质 如何使自己体质保持弱碱性,而不变酸性?听说弱碱性对人体有好处. 关于一氧化二氮N2O的问题问几个关于N2O的问题:1 实验室用加热NH4NO3制取时,温度控制在多少度?若其他温度会产生什么?2 它有没有毒?吸入多少会发笑?3 为什么有人把N2O跟汽车联系起来?请明确 Western country music is very cold.短文填空启航上短文填空没有题目这是第一句 绿茶可以使人体体质由酸性变碱性吗?绿茶是碱性的还是酸性的? 都说男人吃碱性食物,女人吃酸性食物易生女孩有什么科学吗 帮我翻下面课文 Lesson 4 Country-Western Music Country western music is very old.It came from the U 葡萄酒发酵过程温度高好还是低好 酸性碱性体质 酸性碱性食物 是谁提出来的?近期十分流行的说法.请问是谁最先提出的理论?有何科学依据?另外什么弱碱性饮用水之类的说法也是依据也是这种理论? Western or country music is a_____ kind. 1.秋天的田野是丰收的好时节.2.邻居家的小女孩兰兰不但年纪小,而且很懂事.改病句 初三化学离子大全 烯烃α氢的卤代在250度以上时,为什么烯烃与卤素单质反应发生在α氢上的取代而不是双键的加成? 常见的几个酸根离子的化合价初三的 我的世界pe怎么制作电路 卤代氢都不溶于水吗 碘酸根离子化合价 电路图中pe什么意思 烷烃卤代时,氢的活泼性为3^0>2^0>1^0,还有叔氢和伯氢是指C上有一个氢和三个氢吗? 醛能和溴的四氯化碳溶液反应吗?(没有水在里面!)到底是取代甲基上的氢原子,还是氧化成羧酸,还是根本不反应?怎么每个人的答案都不一样啊! 紫色石蕊和笑气的化学式是什么? 粽子用( )的芦叶裹着( )的糯米和( )的枣子.括号里填什么?括号里的词是颜色的! 醛基与液溴 溴的四氯化碳溶液 反应吗 “笑气”的化学式为N2O,则有一种气体的相对分子质量的质子数、原子核数都与“笑气”一样,该气体的化学式是_______. 形容一个人有棱有角是什么喻意? 根据顾恺之吃甘蔗的理论,倒吃甘蔗,这样会渐至佳境.但是甘蔗的根部比上面的部分要更甜.这不是矛盾吗? 求制备笑气(N2O)的化学式 什么是酸性和碱性体质?过酸过碱对身体有何影响? 红色粉末和无色气体化合物反应生成黑色物质的反应是什么
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘