说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

《Hadoop核心技术》作者翟周伟 :我与Hadoop的不解之缘

HTML文档下载 WORD文档下载 PDF文档下载
翟周伟,资深Hadoop技术专家,《Hadoop开源云计算平台》、《Hadoop核心技术》作者。日前,CSDN记者对他进行了采访,请他解读Hadoop发展现状、特性及发展前景,以及这一路走来的心路历程。

翟周伟,资深Hadoop技术专家,专注于Hadoop&大数据,数据挖掘,自然语言处理领域,目前就职于百度。2009年,利用Hadoop构建商业级大数据系统,是国内该领域最早的一批人之一;负责设计多个基于Hadoop的大数据平台和分析系统;2011年合著出版《Hadoop开源云计算平台》,并在自然语言处理领域申请过一项发明专利;2015年,完成著作《Hadoop核心技术》一书。

日前,CSDN记者采访了翟周伟,请他解读Hadoop发展现状、特性及发展前景,分享创作《Hadoop核心技术》一书的灵感来源以及经验感悟。


翟周伟:不断学习、不断思考,享受一章一节带来的喜悦

CSDN:首先请介绍下自已、目前所在公司以及负责的领域。

翟周伟:北京邮电大学研究生毕业,目前任职于百度,主要从事网页搜索相关的大规模数据挖掘和自然语言处理领域相关研发工作。

CSDN:Hadoop在百度主要运用在哪些领域?使用情况是怎样的?

翟周伟:Hadoop在百度的应用领域主要包括:大数据挖掘与分析,日志分析平台,数据仓库系统,用户行为分析系统,广告平台等存储与计算服务。

目前百度的Hadoop集群规模已经超过数十个至多,单集群节点数目超过5000台,每天处理的数据量超过8000TB。同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一C++编程接口,并对Hadoop深度改造,开发了性能更强的HCE(Hadoop C++ Extend Systerm)系统。

邂逅Hadoop

CSDN:你是从什么时候开始接触Hadoop?作为一名Hadoop技术专家最吸引你的是什么?有没有背后的故事分享给大家?

翟周伟:我从2009年9月份开始接触Hadoop,Hadoop已经成为工业界大数据领域的事实标准,最吸引我的是最初Hadoop在大数据处理领域给我的震感,因为在使用Hadoop之前如果要处理上百TB的数据是一件非常困难的事情,首先需要考虑如何将这些数据存储下来,然后还需要考虑如何划分,以及数据容错性等复杂问题,而要完成这样的工作没有1个月的时间是很难搞定的,但是在Hadoop的帮助下一天甚至几个小时就可以完成从程序开发到最终数据产出,而且想想自己可以在很短的时间内操作成千上百台的集群来处理上百TB的数据,还是很震撼的。

CSDN:在国内,你是利用Hadoop构建商业级大数据系统领域最早的人选之一,可以说是敢于吃螃蟹的第一人。那么,你是如何成为核心成员的?在开发期间有没有遇到过什么困难?又是如何克服的?

翟周伟:早在2009年的时候我们就尝试使用Hadoop技术为中国电信研究院,移动研究院等机构构建大数据云平台并作为生产平台为线上业务提供云存储与计算分析服务。这在当时来讲是国内将Hadoop落地应用的最早实践者之一。

在最初参与开发这些项目的时候我还并不是核心成员,而我要做的就是在项目中不断学习并积累Hadoop和大数据相关知识,最重要的就是在项目开发过程中证明自己,证明自己有足够的知识积累和能力完成项目并超出预期,当然在这个过程中也会遇到一些困难和挫折,例如数据的产出和预期不符,系统性能遇到瓶颈等问题,在面对这些问题的时候首先就是不能怕,对自己能解决这些问题要有足够的信心,然后就是认真分析问题,一步一步DEBUG定位问题,最终就可以解决掉这些问题,这也是一个艰苦的工作,不过我更享受成功后的那种喜悦之情,因为我喜欢技术挑战。

Hadoop发展现状、特性及发展前景

CSDN:你怎么看待国内外的Hadoop发展现状?可否预测下Hadoop未来的发展前景?

翟周伟:目前Hadoop可以说是已经成为工业界大数据领域的事实标准,在国外主要以Yahoo、Facebook、EBay、IBM等为代表;在国内则以百度、腾讯、阿里等互联网公司为主。而Hadoop作为开源软件,这些大公司的使用和改进迭代进而又完善并推动Hadoop的进一步发展,因此Hadoop的发展是离不开这些互联网公司的使用,从本质上看还是因为互联网的快速发展导致了海量数据的分布式存储和计算需求,而Hadoop正是为这样的需求提供了非常好的解决方案。

对于Hadoop的发展前景我从以下几个方面谈谈:

第一个方向就是统一资源管理与调度方向,目前各大互联网公司商用的Hadoop集群还是以Hadoop-1.X版本为主,Hadoop-1.X版本的有效性和稳定性已经得到验证,但是Hadoop-1.X也存在很多问题,例如资源分配以槽位为基本单元,没有考虑到应用实际需要的内存,CPU等资源;还有就是Hadoop-1.X仅仅只支持MapReduce模型,计算资源利用率不高,一个MR任务只能包含一个map和一个reduce任务,而实际需求往往是一个DAG任务。针对这些问题社区版Hadoop-2.X提出了YARN框架,在资源管理层来解决这些问题,同时各大商用发行版以及互联网公司也提出类似的框架来解决Hadoop-1.X中的问题。

第二个发展方向就是Hadoop高可用性解决方案,目前的Hadoop还是单Master节点设计,因此集群的规模受到主节点的硬件配置限制,同时可靠性上存在单点故障(SPOF )问题,这一点目前各大Hadoop商业发行版以及各大互联网公司都在研发多Master节点设计的解决方案,因此也是未来重点方向。

第三个发展方向就是Hadoop生态系统集成,目前Hadoop已经发展为一个完备的生态系统,这个生态系统最底层以HDFS和MapReduce为核心,上层为各种存储,计算,分析等应用系统,如何将这些系统很好的集成起来形成一个类似完善的分布式操作系统和云计算应用系统是一个非常诱人的发展方向。

第四点就是灵活性上,目前的Hadoop为用户提供了非常便利的并行计算框架,但是这个框架本身的流程过于复杂,用户实际的需求往往很简单,例如Hadoop中在map的输出和reduce的输入都需要进行排序,而实际上并不是所有的任务都需要排序,因此对于那些不需要排序的应用就会造成资源的浪费又消耗了时间。如果可以提供是否配需的可控制参数就可以很好的解决类似的问题。因此Hadoop的灵活性上也是一个发展方向。

CSDN:Hadoop与Spark相比,两者之间有哪些异同点?各自的优势是什么?此外,Hadoop与Spark都支持容错性,Spark在容错性方面是否比Hadoop更具优越性?你怎么看?

翟周伟:在基本原理上:Hadoop和Spark最大的区别在于Hadoop是基于磁盘的大数据批处理系统;而Spark是基于弹性分布式数据集(RDD,显式地将数据存储到磁盘和内存中)。在模型上,Hadoop以MapReduce模型为核心,而Spark除了map和reduce函数操作之外的很多函数操作,诸如join、groupBy、reduceByKey等。

在优势上,Hadoop可以处理超大规模的数据,适合日志分析挖掘等较少迭代的长任务需求,同时Hadoop很好的结合了数据的分布式存储和计算;而Spark适合数据挖掘,机器学习等多轮迭代式计算任务,Spark本身并没有提高数据的分布式存储解决方案,还需要依赖HDFS等第三方存储系统。

在容错性上需要考虑两个方面,第一就是数据容错性;第二就是节点容错性。Hadoop在数据容错性上考虑的很全面,从HDFS本身的冗余复制机制,到安全模式,数据校验,元数据保护,快照机制等,在节点容错性上Hadoop从资源调度层次来解决。而Spark在数据容错性上是建立在RDD概念之上,当一个节点出现故障时,Spark会根据存储信息重新构造数据集。因此Spark在容错性上并不比Hadoop具有优越性,应该是在容错性上Hadoop考虑的更全面,而Spark更加在意处理数据的效率和响应时间。

CSDN:Hadoop已经成为大数据工业级的标准,有很多组件,比如Hive、Hbase、HDFS等,能说说各自的优缺点以及适合的场景吗?

翟周伟:优缺点以及适应场景如下表格:

 

Hive

Hbase

HDFS

优点

提供了类似SQL的 HiveQL语言进行数据查询。

基于HDFS以多维度排序的映射表形式,key-value存储检索非常高效。

接口简单,使用方便。

缺点

延时大,大规模数据后置处理,数据的前置处理比较简单使得数据预处理不充分。

不支持SQL类似语法,在实时性处理方面不如传统关系数据库。

随机读写性能较差。

适合场景

适应T、P 规模的数据分析。

适合于非结构化数据存储的分布式数据库。

适合一次写入多次读取的场景。

写书感悟——书中自有黄金屋

CSDN:2011年你参与著作了《Hadoop开源云计算平台》,今年你又著写了《Hadoop核心技术》,是什么机缘让你想到要写这本书的?

翟周伟:在2011年《Hadoop开源云计算平台》出版之后可以说是当时国内国人写的第一本Hadoop技术丛书,但是当时这本书编写的时间较为仓促同时相对较为简单,而后2011年8月多进入百度之后发现Hadoop技术在互联网公司内部已经大规模使用,而大多数研发人员都不是很熟悉Hadoop技术的使用,因为我就萌发了再编写一本较为全面又有实战讲解的相关书籍。

CSDN:《Hadoop核心技术》这本书历时多久完成著作的?主要适合哪些开发者?在撰写此书中给你留下最深的感悟是什么?

翟周伟:《Hadoop核心技术》这本书历时2年完成,主要适合大数据Hadoop研发人员、Hadoop应用开发人员、Hadoop运维管理人员等。

撰写此书中给我留下最深的感悟就是理解一门技术和使用专业的术语并且用通俗易懂的语言将所理解的技术讲解出来是有很大不同的,而在这个写作过程中也是我自己不断深入学习提高的一个过程。

CSDN:你如何在进度压力下,享受写书带来的快乐?

翟周伟:写作是一个再创作的过程,因此需要大量的时间进行思路梳理,语言组织,然后才能进行真正的写作,而这些工作时要在工作之余利用空闲时间完成的,因此进度压力还是蛮大的,但是这个过程也是自己不断深入学习,不断思考的过程,而且想想自己的书要被上千上万的读者学习还是很有动力的,每当完成一张一节的时候都可以带给我一个喜悦,而我本身也是享受这样的快乐的。

CSDN:在日常生活中你是通过哪些方式来提升自己技能的?平时的生活节凑是怎样的?

在日常生活工作中我主要还是通过项目实战来提升自己技能的,当发现自己不懂的原理细节时我首先想到的是从相关英文文献或者书籍中了解基本原理,然后阅读源码来进一步深入理解。

平时的生活还是挺紧张的,因为搞互联网的几乎很少有不加班的,而百度的项目安排期往往比较紧,这样留个自己的空闲业余时间就很少了,因此我通常也会很珍惜业余空闲时间。

CSDN:给学习Hadoop集群方面的开发者分享些经验吧。

翟周伟:首先搞清楚什么是Hadoop以及Hadoop可以用来做什么,可以查阅相关网站介绍或者Hadoop综述相关论文文献资料等。

然后,可以从最经典的词频统计程序开始,初步了解MapReduce的基本思路和处理数据的方式。这里建议大家直接浏览Hadoop的官方网站上WiKi文章,并按照WiKi一步一步完成实例的理解和学习。

接着,就可以正式学习Hadoop的基本原理,包括HDFS和MapReduce,先从整体,宏观核心原理看,先别看源码级别。建议这块先阅读Google的相关两篇核心论文:《The Google File System》、《MapReduce: Simplied Data Processing on Large Clusters》;进一步,就可以深入HDFS、MapReduce和模块细节,这个时候可以结合源码深入理解,以及实现机制。

最后就是需要实战了,可以结合自己的项目或者相关需求来完成一些Hadoop相关应用,建议一些比较经典的Hadoop英文原版技术相关丛书:《Hadoop TheDefinitive Guide》、《Hadoop inAction》、《Pro Hadoop》,以及我新出版的《Hadoop核心技术》。


CSDN现开启图书作者专访栏目,欢迎推荐采访人或自荐,来分享你的成长经历和相关技术,相关信息请发送邮件至:xiamz#csdn.net(#换成@)。更多精彩内容,请点击社区之星或搜索关键字图书作者查看。

相关阅读:

  • CSDN学院讲师韦东山:悦己之作,方能悦人
  • 图书作者纪磊访谈:I have a dream——让孩子爱上编程!


检测磁盘是否变化-Delphi资料 检测驱动器容量-Delphi资料 检查驱动器是否就绪:-Delphi资料 建立简单的任务栏应用程序-Delphi资料 将程序放在Windows启动中-Delphi资料 将光标限制在某区域-Delphi资料 将文件放入回收站-Delphi资料 禁止用户切换任务-Delphi资料 控制面板大全-Delphi资料 控 制 系 统 菜 单-Delphi资料 拦截消息处理过程-Delphi资料 利用API函数开发DELPHI程序三例 利用Hook技术实现键盘监控-Delphi资料 利用浏览窗口 DragDrop 任意文件-Delphi资料 利用未公开函数实现Shell操作监视-Delphi资料 妙用Delphi的标识号 判断Windows类型和版本-Delphi资料 判断一个程序是否dos版本:-Delphi资料 屏蔽系统按键-Delphi资料 屏幕抓字技术揭密(转载)-Delphi资料 启动控制面板-Delphi资料 取得系统所有窗口的方法-Delphi资料 全部窗体可使用鼠标点中移动-Delphi资料 让图像旋转-Delphi资料 热启动控制-Delphi资料 如果隐藏和显示Windows的任务条-Delphi资料 如何把文件删除到回收站中-Delphi资料 如何从任务栏上隐藏应用程序的按纽?-Delphi资料 如何得到Windows 的temp路径-Delphi资料 如何得到WINDOWS的SYSTEM路径-Delphi资料 如何得到上一个激活的组件-Delphi资料 又是闪烁,头大! 简单问题,请紧急指导.(在线) help help : fortran + dll = ? 奇怪的现象:判断不了SQL sum()查询结果!!! 2003高考试题 设置访问表命令:“access-list 2 permit 10.0.0.0 0.0.0.255”中10.0.0.0 和 0.0.0.255分别指什么? 请问谁知道这是什么缘故啊? 如何计算cpu和memory的一般的使用上限 在delphi中使用什么报表控件打印的报表效果较好 谁知道db或dbf头文件的格式? 急急 NMFtp中我想从ftp服务器下载指定文件扩展名的文件,该怎么办? 初始化页面的时候,如何使TextMode="Password"的asp:textbox有默认值显示? IBM软件清库存(大优惠) 又是可恶的乱码问题 struts与数据库!在线等待! 如何开发asp.net程序(基于vb) vc++的链接错误 如何用程序动态的获得activex控件的方法属性事件信息 请教:使用web.xml做资源约束时如何由自己的程序来做用户验证 请问:怎样编程来来虚拟网卡? 急!创建LOOKUP的问题 如何计算cpu和memory的一般的使用上限 新问题请教! 老问题:从Excel文件里把数据导入导数据库中 有汇编玩的非常牛的人吗??? 字符串操作的简单问题 学习J2EE需要装什么软件? >>有关记录的问题??<< 请高手指教:出现“ORA12663:服务器未提供客户机要求的服务”问题,怎么解决? 大侠救我! 动态sql问题请教,谢谢 填充combobox的问题 windowsxp不能创建拨号连接 怎樣轉換時間格式 ACCESS问题 Linux下上网问题?在线等待!急!急!急! 终极讨论:从Excel文件里面导入数据 winsock的问题 关于WINDOWS下邮件程序编写问题 Solaris下的Makefile问题 在lan里面的两台主机之间怎么配ppp连接,没有modem 我的SQL数据库安装的是实例,好象有问题哦! 高分求票据、合同套打代码! 事务问题,请大家帮忙,在线等待,50分相送!!!! xml解析的问题? 关于CRuntimeClass,请指教。 100分求解(在线等待) 终极讨论:从Excel文件里面导入数据 CString怎样转换为char * 类型? 有关爱情与事业的讨论! replace(replace(replace(replace(str,"<","&lt;"),">","&gt;"),chr(13),"<br>")," ","&nbsp;")是什么意思? 2009初二寒假英语日记5篇 我英语不是非常好 想考本科但是要过英语a及 求方法如题 人寒冷的感觉是怎样造成的? 寒假日记(英语)5篇(初二)带翻译.不要复制的.记得要是想个国中生写得.不要跟外国人写的一样. suggestion怎么用 怎样才能给人一种冰冷的感觉 sb with sb+is sb and 已知二次函数 f(x),f(1)=4,f(2)=7,f(-1)=10.求这个二次函数的解析式 英语翻译Poligono Industrial Baix Ebre H STREET PLOT 79/80 高数 拉格朗日乘数法(2元的)推理疑问与(7)一行的 fy(X0,y0)+λφy(x0,y0)=0 怎么推导出来的 sb with sb +is sb and sb +are English is widely used _____ travellers and business people all over the world.A.to B.as C.by D.for 请翻译, 高数 拉格朗日乘数法44题怎么算? 柔性制造单元FMC与柔性制造系统FMS有什么相同和不同?CIMS有那些基本功能模块组成? 养怡之福可得永年的永年是什么意思? 1.已知“命题p:(x-m)^2>3(x-m)”是“命题q:x^2+3x-43(x-m)”是“命题q:x^2+3x-4 这是哪国的语言啊,做了一个奇怪的梦,梦中的外国人给我讲了很多,只记住一句.WU MI TANG 乌咪汤 若偶函数f(x)的定义域为【-1,1】,且在【0,1】上单调递减,若f(1-m) 已知点O(2x,y²+4)与点Q(x²+1,-4y)关于坐标原点对称,试求x+y的值 After discussion,his suggestion is that his brother ( ) to the front.A sendingB should sendC sendD be sent 中华苏维埃第一次全国代表大会和全国第一次代表大会有什么不同?中国苏维埃第一次全国代表大会与全国第一次代表大会有什么不同(就是1921年的那一次)? “阳奉阴陪”这个词语的一、三两个字意思相反,二、四两个字意思相反,请写三个这样的词语:天南地北 上行下效南辕北辙南来北往厚此薄彼 在三角形ABC中,已知c=根号2+根号6,C=60度,求a+b的取值范围. 阴菜是什么菜 英语翻译Specious,however,has the negative suggestion of using deception to make something false appear true. 英语翻译中远物流是我国最大的中外合资第三方物流企业,随着市场竞争的加剧,企业纷纷在创新战略、加强增值服务上下功夫.中远集团为了更好的物流服务在国内、国际市场中赢得竞争优势, 两会中的人民代表大会和每五年一次的全国代表大会的区别是什么?如果本年度召开了全国代表大会,还要召开两会中的全国代表大会么? 翻译:1.你真好,给了我这么多建议(suggestion) 2.请代我向你的父母问好.(regards) 养怡之福可得永年怎样理解 几何除了欧式几何还有哪些几何大类? 请帮忙将Serving suggestion翻译成阿拉伯文, 英语翻译1、图片中使用白盒代替彩盒2、这种包装方式不能通过drop test3、详细包装方式,请查看附件的说明4、由于我们没有做过12pcs的包装方式,所以我们没有Die-lines,但我可以提供Color box的参 养怡之福的之,盈缩之期的之我知道这两个之词性一样,但不知是什么词性, 帮忙翻译给领导的建议信件我认为我们缺少一个关于XXX的标准文档.以此文档来约束XX的流程、记录客户需求、相关责任人和问题的解决日期.I consider that we need a formular standard document about XXX.It' 英语翻译This email is to confirm that your email has been received.If you are applying for an advertised vacancy please ensure you attach your CV and supporting documentation.Please note the company does not accept prospective applications. Vien的意思Vien这个英语名字翻译过来叫什么.. 谁可以同时用上眉清目秀、红光满面、大步流星、心旷神怡造句急用! 曹操的"盈缩之期,不但在天;养怡之福,可得永年."是什摸意思? Vien什么意思 眉清目秀、红光满面、大步流星、心旷神怡怎样造句? “盈缩之期,不但在天;养怡之福,可得永年.幸甚至哉,歌以咏志.”意思. sinh 翻译成英文“准确定位细分市场” 导入柔性化管理机制,以适应市场快速变化的需求.(翻译英文,误用翻译软件) 定义与性质的不同急以三角形为题 眉清目秀、疾步如飞、口若悬河造句 已知二次函数f(x)满足f(0)=f(4),且f(x)=0的两根平方和为10,图像经过(0,3)点,求f(x)的解析式如题 英文名Vien感觉怎么样?是什么含义? 英语完型 求讲解 英语翻译刚刚在微信里头看到前世是怎么死的,由于蛮无聊的,就测了一下,出来的是 粤语 笑西死,你前世既然一棵桉树,= =能帮我翻译一下吗,人家测出来的再奇葩好歹也是国语,这粤语...真心蛮 性质和定义的区别 1.甲数和乙数的比是2:3,甲数占乙数的几分之几,乙数比甲数多( ),甲数比乙数少几分之几.2.小明五分之一小时走了十五分之七千米,他一小时走( )千米,走一千米要( )小时. 已知二次函数f(x)满足f(0)=f(4),且f(x)=0的两个平方和为10,图像经过(0,3)点,求f(x)的解析式. “性质”和“意义”有什么区别 大拇指只有两个关节,这样的结构,有什么好处?回答完整一些 考好英语笔试部分的窍门 方法 喜阴的菜有哪些 二年级寒假关于新闻的日记(5篇) 如何使用suggestion 理一理,连句成段.只写序号【】这个八边形的''藻井,还是古代的木质扬声器呢【】最典型的戏台 绍兴柯桥区塘乡的宾舍戏台距今已有400多年的历史.【】藻井壁间画着八仙过海的故事.【】在 福布斯全球影响力榜安倍位居第57位 成品油价迎十年最小降幅 90号汽油降日本一女大学生因在公园拍摄成人视频被日本一男子弑母弃尸 藏尸冰箱月余终败阿萨德与卜拉希米会晤 称叙命运由本国克罗地亚第一副总理兼外长将访华制造长沙黄花机场恐怖信息的犯罪嫌疑人39岁女子当选日本年度\"美魔女\"十八大后10次集体学习 新领导层施政一线城市房价居高不下 中央勾勒住房问首都机场进出港航班正常 未提升安保等盘点全球超萌迷你动物 最小狗狗脑袋仅金正恩接见朝鲜第267部队 感谢该部万圣节怎么过?经典日本恐怖片让你吓破人品爆发!美国男子中611万后仅隔两“甲壳虫”乐队主唱列侬儿时故居48万美国承诺不再窃听联合国 对此前传闻不中国—东盟能源合作进入“零关税”时代中国驻圣彼得堡总领事和留学生谈梦想中国军方就日舰闯入我演习区提出严正交日本发现一种化合物可预防糖尿病等疾病棒球赛安信证券:四季度须防风险苏宁联手德国Blomberg推出智能挑选二手车发动机检查不可少 6步搞定20日来扬子创美工场看首展牵手法属留尼汪、以色列旅游局 途牛必须刺痛装睡的人本报广场舞大赛明天开始投票啦看多情绪空前 两融余额节后再攀高峰责编:杨 宁邮箱:guojihwb@继《何以笙箫默》之后的《微微一笑很倾扬子观影圈请您看IMAX版《蚁人》在智能硬件生态平台上,腾讯TOS将面竞彩受注赛事一览海外版做“红娘” 亿赞普“嫁”青岛夏乐:须防政策风险伤害经济张高丽访问新加坡主持中新双边合作机制明天或杀“回马枪”“丝路明珠”大型采访启动华康全景获2亿元B轮融资 云锋基金领冻土中能生出春花(留学素描)
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘