说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

七牛技术总监陈超:记Spark Summit China 2015

HTML文档下载 WORD文档下载 PDF文档下载
相比去年峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态,而今年参会者想的更多的是“我怎样才能更好地使用Spark”。


Spark Summit China 2015于4月18日在北京国际会议中心顺利召开。作为本次峰会的主席,我很荣幸地邀请到了来自Databricks、微软亚洲研究院、IBM、英特尔、Cloudera、百度、阿里巴巴、腾讯及亚信的Spark开发者与使用者来分享他们的宝贵经验。本文,我将从我的视角来解读本次Spark峰会所传递出来的信息。下面一起回顾:

Tathagata Das:New Directions for Spark in 2015

从TD(Spark Streaming负责人)的第一场分享来看,Spark确实已经开始在大数据领域起到中流砥柱的作用了。同时,Spark本身的发展也相当迅猛:2014年,Spark的代码量从19万增加到37万,代码贡献者从150多人上升至500多人,对比之下,Hadoop前进的脚步显然慢了一些。过去一年,Spark的重点基本是在稳定性和效率上,当然Spark社区也一直在提供更丰富的Library。而在2015年,Spark的新方向是数据科学与平台化。Spark1.3正式发布了DataFrame,这个后面连城的分享会有更详细的阐述。Machine Learning Pipeline的出现使得机器学习更加便捷。TD同时也透露Spark1.4中将引入SparkR,这显然是给数据科学从业者注入了一针强心剂。另外一方面,Spark也可以基于DataSource接口无缝接入各个不同的数据源,这不仅给不同数据源的使用者提供了更便利的Spark使用方式,更给那些需要从不同数据源收集数据,并结合起来进行分析挖掘的用户提供了一个极其简单的实现。最后TD表明,基于Spark的第三方package也发展迅猛。

周虎城:Spark Ecosystem and Applications inside Microsoft

第二场演讲来自微软亚洲研究院的周虎成,他主要介绍了Spark在微软内部的使用。听完周虎成的分享后,我本人其实对于微软会将Spark用的这么深入而略感意外。刚开始时,周虎成就说了一句非常有意思的话——“微软可能是目前唯一一个将Spark跑在Windows Server上的用户”。微软的Spark生态系统由Resource Management、Data as a Service、,Spark as a Service 及 App组成,其中data可以支持HDFS、Cosmos、 Azure storage、Entity store及Tachyon。值得一提的是,微软使用了Zeppelin作为交互式分析工具。此外,Spark Streaming与MLlib在微软内部也有被使用。

王联辉:腾讯在Spark上的应用与实践优化

第三位进行分享的是腾讯高级工程师王联辉。众所周知,腾讯在很早之前就开始使用Spark了,在TDW得到了深度运用,TDW目前拥有8000多的结点。在腾讯内部,每天由Spark执行的任务数在10000以上,典型的应用场景是:1、预测用户的广告点击概率;2、计算两个好友间的共同好友数; 3、用于ETL的SparkSQL和DAG任务。最后王联辉也给出了腾讯在Spark实践中的一些优化,给大家带来了较大的帮助。

连城:四两拨千斤——Spark SQL结构化数据分析

第四场是Databricks工程师、Spark Committer、Spark SQL主要开发者之一连城带来的Spark SQL相关分享。连城给出了一组关于Spark SQL的开发者数据,数据表明Spark SQL当仁不让的成为Spark中最活跃的组件,并且也正式在Spark1.3中从alpha版本毕业。连城主要介绍了DataFrame(DF),他表示,DF的出现使得语言的选择(这里主要指Scala、Python与Java)变得不那么重要,因为无论你选择何种语言,DF都有非常优秀的性能,并且明显好过直接针对原始RDD的编程。最后连城认为DataFrame已经成了NewRDD,我也比较认同这个观点,相信以后很多场景下,一定都是直接针对DataFrame的编程。

马小龙:Spark在百度的工程实践分享

第五场由百度资深软件工程师马小龙分享Spark在百度的应用。百度目前的Spark集群规模为1500台左右,每天的作业数在10000左右。比较有趣的是,马小龙给出了不同语言的API在百度被使用的比例,其中Python占到70%, Scala占到20%,Java仅占比10%。在百度的众多Spark case中,Tachyon的使用是比较有意思的。百度目前面临着数据节点和计算节点不在同一个数据中心的可能,还有跨数据中心访问延迟大的问题。百度使用Tachyon作为Transparent Cache Layer,冷查询直接从远程存储节点读取数据,而热查询直接从Tachyon读取。结果表明,采用Tachyon后,热查询的效率提高了10倍以上。

黄明:图流合壁——基于Spark Streaming和GraphX的动态图计算

第六场分享由阿里巴巴淘宝技术部高级技术专家黄明(明风)带来,他主要讲的是利用Spark Streaming与GraphX进行的动态图计算相关的内容。有个小花絮,TD对明风的分享非常感兴趣,整个过程中都在与我交流,他也希望有更多有意思的用法出现。明风表示,单纯基于GraphX的图计算可以对用户进行社区划分,可以更好地为决策提供依据。但是每天一次离线计算不及时,没法快速响应业务,而业务需要实时对淘宝的用户进行社群划分,所以明风团队决定尝试由实时消息与实时图构建组成的动态图模型。通过实时效果修正,新的模型体现出了显著的优势,处理时间可以控制在一分钟以内。

田凤占:Spark驱动智能大数据分析应用

第七场分享由Cloudera的高级架构师田凤占博士带来。田博士主要介绍了Cloudera在Spark上所做的努力,并且表示Cloudera已经完全拥抱了Spark,全方位支持Spark的发展。田博士抛出的一个观点很有趣:关注开放标准,而不仅仅关注开源。意思就是厂商需要支持那些被使用最广泛的组件。

黄洁:Spark优化及实践经验分享

第八场分享由英特尔大数据技术中心研发经理黄洁带来的Spark优化及实践经验分享。本场分享在会后带来了极大的反响,建议每一位Spark使用者都去看下黄洁的这份slide,相信一定会使你受益匪浅。黄洁从内存管理、提高IO及优化计算三方面来阐述如何使Spark更加高效。其中的一些方法为用Tachyon作为Spark的off-heap memory,提供更好的任务数据本地性及优化的shuffle实现。最后黄洁也给出了两个可以来评测Spark运行状况的工具。

Tathagata Das:The State of the Union of Spark Streaming and the Road Beyond

第九场分享还是来自TD,不过他这次分享的是Spark Streaming相关内容。TD介绍了Streaming的发展,并且给我们展示了很多使用Spark Streaming的公司,可以看到,Spark Streaming的高质量用户已经非常多了。TD尤其强调了Spark 1.3中release的Kafka Direct Stream API——既然现在Kafka的用户如此之多,所以更好的支持Kafka就显得尤为重要。新的Kakfa Direct Stream API使用了Kafka的simple consumer API,不需要receiver并做到零数据丢失,而且支持exactly-once语义。

田毅:Spark平台在电信运营商的应用实践

第十个进行分享的是亚信大数据平台研发部门经理田毅,其演讲内容是基于Spark改造用户标签分析查询平台。改造前,平台主要是直接利用SQL从数据库中进行查询,这样做的直接问题是标签数量越来越大,数据库负载过高,扩展成本高。因此,田毅团队利用Spark SQL的External Datasource从外部系统的数据表中抽取数据后直接分析,大大提升了效率,最后田毅团队引入了Spark Streaming,使得处理时间进一步缩短。

陈冠诚:基于OpenStack、Docker和Spark打造SuperVessel大数据公有云

最后一场分享由IBM中国研究院高级研究员陈冠诚带来的Spark、Docker与OpenStack的结合实战。这可能也是后面发展的一个方向,就是将容器技术与大数据框架结合起来跑,我本人也十分期待后续更多类似的案例出现。

以上是本次Spark中国峰会的各场次摘要,由于篇幅所限,无法做更详细的展开,大家可以选择感兴趣的话题去查阅相关资料,同时也欢迎讨论。

本次峰会的另一大亮点是报名企业的种类非常多,不仅大量的互联网公司派遣相关人员参会,不少传统企业也对Spark表现出了极大的兴趣。在上午的峰会中,会场两边与后面的走道都挤满了观众,这样的热情有点出乎我的意料,所以组委会临时决定下午减少现场的桌子,增加一些椅子给各位参会者。同时,相比去年的峰会,今年的Spark峰会显得更加自信。去年,大部分参会者可能更多是抱着“我能不能用Spark”的心态来的,而今年参会者想得更多的是“我怎样才能更好地使用Spark”。从我与不少现场参会者的交流来看,大家已经非常认可Spark了,我们有理由期待Spark成为继 Hadoop(MapReduce)后新一代大数据处理事实上的标准。在Spark后续的发展中,我认为DataFrame将毫无疑问成为核心,所以我建议Spark的使用者都来关注一下DataFrame,另一方面,我也预计将会有越来越多的数据科学家会选择使用Spark,而Spark SQL、Spark Steaming及MLlib这三个组件一定会有更多融合使用的场景。希望在明年峰会的时候,有更多有意思的议题出现。

2015年的峰会圆满落幕了,借此机会感谢各位讲师,感谢各位参会者,也要感谢主办方,希望明年我们可以共同办一届更加成功的峰会。

Spark——星星之火,已经燎原! 

后记:北京时间2015年4月28日晚,Databricks在其公司博客宣布了Tungsten项目,这将是自Spark诞生以来内核级别的最大改进。同时,据Reynold透露,Tungsten将在未来两到三个release内实现。届时,Spark的执行效率又将有大幅提升!这似乎也在说明着——Spark的优化,永不止步!

在VB中获取可执行文件及Windows 95快捷方式的图标 在VB中进行各种图形切换的方法 在VB中制作可滚动的图像显示 在图片上平滑移动文字 -VB资料 VB怎样使程序的标题条闪烁? VB制作图像的Mask图 CWinInetConnection-一个封装了WinInet API函数的类 -VB资料 MODEM通讯意外处理-VB资料 MsComm 文字传输-VB资料 PING一个IP地址(向它发送一个数据包并等待回应) -VB资料 SMTP协议简介 (Simple Mail Transfer Protocol) -VB资料 VB5.0 中远程数据库的访问 VB下如何编写CRC校验程序 Visual Basic 6中发送邮件的新方法 Visual Basic通信程序设计 Whois 示例程序-VB资料 Winsock Terminal示例程序 -VB资料 WinSock断开导致客户端问题-VB资料 把Outlook信箱中的附件另存为 -VB资料 保证连网计算机时间同步-VB资料 编写网络寻呼机 -VB资料 编制自已的电话录音小程序-VB资料 程序中如何启动默认的拨号连接-VB资料 打开浏览器并进入指定网址-VB资料 得到用户的IP地址 -VB资料 电话拨号 -VB资料 电子邮件的标准格式 (RFC 822)-VB资料 断开拨号网络的连接-VB资料 断开与 Internet 的连接 -VB资料 发送电子邮件附件-VB资料 VB获得用户网络登录名 《Applied Cryptography》,这是本什么书? 一个12位的整型,用unsigned long可以容纳吗? Perl以后会变成什么样呢? 谁能帮我!错手把逻辑盘的东西删了,能不能恢复。 下面添加用户的代码能运行吗,我怎么运行不起来,50feng VC文本编辑器没有参数提示 在Delphi中如何使图像淡入淡出? 猜猜中国今天输几个,本人大胆预测10-0 为什么我这里总是405错误呀?Method Not Allowed……The requested method POST is not allowed ADO技术问题! HOOK还是不行! 在ocx中如何使用一个ActiveX,不算使用IMPORT,还有没有别的方法呢?(大送100分) API中的SETTEXTCOLOR函数! 部署实体bean的问题(jbuilder6+weblogic6)??? 怎么样自动增加一列在select UserID,AreaCode from table 。在先等候,先答来的100 谁能帮我!错手把逻辑盘的东西删了,能不能恢复。 调查:各位都用哪里的主页空间? 猜猜中国今天输几个,本人大胆预测10-0 我不喜欢南美球队,球风太差,犯规隐蔽,演戏一流!!! 请问这段代码哪里有误?我用的asp+access。急急急急急急急急急急急急急急! 我想做一个类,提供ONMOUSERMOVE事件给用户接口,怎么做,在线等候? 请问关于软件架构,框架和构架的问题 看看别人吧!!!再看看我们!!! 怎么样自动增加一列在select UserID,AreaCode from table 。在先等候,先答来的100 全民健身 有谁使用过水晶报表? 求线段作另一线段的垂足 请问哪里有Delphi 6的控件下载? 怎么调用api画多边形? 求线段作另一线段的垂足 谁能帮我!错手把逻辑盘的东西删了,能不能恢复。 如何把一个文本文件的内容赋值给一个char* 大连高程何时报名? 需要这样功能的远程控制工具.... 谁知道广州搞php OR asp一月多少钱? 如何给JButton响应Enter键. W2K2000中的 SP 是干什么? 问题整理:求教关于Bezier的方程!!! 关于DJGPP和NASM 请问用什么样的方法可以令win98每隔两个小时死一次机或重启?谢谢 交论文的日子快到了--- 请问关于网站建设方面的,有哪些可写的? 50分,请问ms sql2000可以设置只显示用户表,隐藏系统表, JRE?JAVA 运行环境,指的是什么?要如何配呀? 关于记录指针问题? 50分,请问ms sql2000可以设置只显示用户表,隐藏系统表, 请问。。。 怎样在tomcat 401上面配置一个虚拟主机?(更详细的提问) 请各位能不能详细的解释一下客户端代码和服务端代码 activx控件屏蔽右键菜单 大家简单谈一下,现在学Delphi还有多少前途呢? 给大家带来一个好消息!! 谁知道如何使用和管理恒源防毒面具? 酵母菌有纤维素吗?为什么?纤维素存在于植物细胞壁中,还存在于哪? 三当今中国经济发展出现的三高一低及对环境污染的问题如何运用和谐社会的理论阐述形势与政策 能使油脂迅速溶解的物质最好是较常见的物质 具有强极性键的化合物一定是强电解质吗? 甲基环己烷化学性质甲基环己烷具体化学性质 一溶液中可能含有Fe3+ Ag+ Cu2+ ,如何鉴定并分离 海藻酸钠和海藻酸丙二醇脂是不是一种物品 环己烷的化学性质、稳定性、 怎样提高实验室检测数据的准确性 美的微波炉:微波光波组合烧烤用什么容器?说明说微波加热用耐高温塑料容器,玻璃,瓷器,不能用铁容器,而光波只能用铁容器,那微波光波组合用什么容器? 2,4-戊二酮与2-丙酮如何鉴别? 在初中教材中选择一个实验,运用评价策略设计一个实验报告单,并说明运用了什么样的评价策略.实验报告单可参考课程“初中生物实验教学的评价”中的实验报告表1和实验报告4.字数要求: 实验室的试验数据应如何管理? 微波炉微波和光波组合功能能用什么容器我有一个格兰仕的光波炉,说明书上说在光波和微波组合状态下可以使用金属网架,烧烤接油盘,但就是不能用金属器皿,这个金属网架和烧烤接油盘不就 初中生物实验报告单如何填 一位同学在实验室连续测量了一杯热水的温度,得到了以下数据一分钟:76度两分钟:74度三分钟:72度四分钟:70度五分钟:68度六分钟:66度七分钟:64度(1)水温的变化说明了什么?(2)如 美的微波炉有一种(光波微波)组合能用金属器皿吗?不是说微波不能用金属器皿吗?可是组合档里也有一段...美的微波炉有一种(光波微波)组合能用金属器皿吗?不是说微波不能用金属器皿 同步题库二1.对阿基米德定律正确的叙述是( ).A.浸在液体中的物体,受到向上的浮力,浮力就是物体所排开的液体受到的重力B.浸在水中的物体,受到向上的浮力,浮力大小等于物体所排开的液体 临床试验中的各种实验室数据应如何记录 甘油聚醚是否就是聚丙二醇? 如图实验名称为? 请问,你知道如何鉴定分离 Ag+ 、 Cu2+ 、Ni2+ 异丙二醇聚醚是不是丙二醇聚醚 1.有一个铜块挂在弹簧秤上,当铜块全部浸没水中时,弹簧秤的读数是( ).A.铜块所受重力 B.铜块所受浮力 C.铜块所受重力与浮力之差2.一个实心的铁球和一个实心的铝球在空气中用弹簧秤称时物 为什么有时候冲完水后水管会响? 圆柱形容器底面积是500平方厘米,高为40cm,盛满水后放在水平放置的接水盘中,现将一质量为7.9kg的实心正方体金属块轻轻地放入圆柱形容器中,静止时如图所示,此时测得溢出的水的体积为1dm3.( 使用电能对减少污染,保护环境有利的一个具体例子. 尼龙66和pc材质的性能区别是什么,那个好? 丙二醇嵌段聚醚是什么? 杭州建设发展中出现的环境污染事例 杭州十一五在绿色城市建设中的例子 世博中环保事例 各3个,对不起太穷, 浓度差别不大的Fe3+、K+、Ca2+、Na+、Mg2+、Al3+、Zn2+、Fe2+、(H+)、Cu2+、Hg2+、Ag+放电顺序? 合成聚氨酯的聚醚二醇和聚丙二醇是一种物质么?急于购买, 请问腌咸菜时,发现坛子里的咸菜上长毛了,这样的咸菜还能吃吗? 电解池放电顺序Ag+>Fe3+ >Cu2+>H+>Pb2+>Sn2+>Fe2+>Zn2+>(H+)> Al3+>Mg2+>Na+>Ca+>K+求高人解释Cu2+>H+的后面还有一个带括号的(H+)、那个是什么情况.能举个例子说明一下吗.我在网上查说是::当离子浓度相差 为什么冰块放在可乐里会有气泡?首先说明啊,气体溶解度随温度降低而增大的,其他几种解释一直不太明白,求高人解答 除了植物细胞,还有什么生物细胞有细胞壁 高锰酸钾 二氧化硫,高锰酸钾 二氧化硫时先是浑浊,然后是高锰酸钾腿色,为什么!浑浊的是什么啊!急 为什么在冰里面有被冻住的气泡,那些气泡看上去像是在向上升.不是说气体在水中温度越高溶解度越小吗?那么空气在水中的溶解度是是随温度升高而增?还是········ 除了植物细胞和细菌,还有什么生物体的细胞有细胞壁? 2Na2O2 + 2CO2 ===2Na2CO3+O2 中,Na2O2 (CO2) 中氧元素的化合价是升高了还是降低了?氧化还原反应里两反应物有共同元素怎么判断化合价升降? 常压蒸馏和薄层分析的实验操作要点,实验原理是什么? 卤代烃消去反应中加入乙醇的目的是什么 Ex1.下列反应既不需要加氧化剂,也不需要加还原剂的是,Na2O2------O2 为什么 溶液中含有五种离子,SO32-,SO42-,HCO3-,NO3-,CO32-,加入过氧化钠后,仅硝酸根浓度不变,.为什么硫酸根浓度会变 未知混合溶液中存有Ag+ Cd2+ AL3+ Cu2+ Ca2+,请设计实验分离鉴定设计方案1.取一滴混合溶液在点滴板上+一滴0.5MOL/L的K4[FE(CN)6)——红棕色沉淀——检出铜离子2.加盐酸——氯化银;Cd2+ AL3+ Cu2+ Ca2+3. 白矾灭菌后为什么会变色 甘油是有机物还是油脂?如题, 分离并鉴定Cu2+,Ag+,Fe3+,Al3+,Ba2+ 明矾能用于自来水厂消毒吗 明矾与氢氧化钡如何反应,这里氢氧化贝逐滴滴至过量,明矾是10ml.要求生成沉淀物的最大质量,还有加入过量氢氧化贝的离子方程式 恒源防毒面具效果好不好? 84消毒液和明矾可以同时放入水井消毒吗 明矾与氢氧化钡以1:4反应离子方程式试卷系甘写的,我都想知道,,最好写明点吧,完整的化学方程式和离子方程式 恒源防毒面具性价比怎么样? 哪种盐溶于水吸热?我记不清是硝酸铵还是氯化铵了. 水平桌面上放有一柱形容器,底面积为500cm\1,里面装有深度为20cm的水;在水平桌面上放有一柱形容器,底面积为500cm,里面装有深度为20cm的水;一个重力为2N的开口玻璃杯A,其底部与一个体积为50c 从石油中得到汽油,可用蒸馏 为什么淀粉比纤维素常见啊?植物中只要有细胞壁就有纤维素啊! 环乙烷和环己烷的区别
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘