说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

HBTC精彩回顾 Hadoop专家分享大数据技术工具与最佳实践

HTML文档下载 WORD文档下载 PDF文档下载
常言道:人生如戏,戏如人生。一场戏结束时通常是要谢幕的,一个亮相、一个鞠躬、一段音乐、一句表白都是谢幕的形式。精彩纷呈的HBTC已经落下帷幕,然而不管您是否有机会抽身前往,带你回味一下这饕餮盛宴冰山的一角总是有必要的。

11月30日-12月1日,Hadoop与大数据技术大会(HBTC 2012)在北京新云南皇冠假日酒店已经成功落下帷幕,但留给整个技术界的深思还有很多。会场上,五十余位讲师干料十足的实践经验掀起了场内场外阵阵讨论的热浪,五大分论坛参会者现场提问频频“出彩”,质量颇高。其中,Hortonworks的首席技术官Eric Baldeschwieler,MemSQL 的创始人与首席技术官Nikita Shamgunov,美国俄亥俄州立大学计算机系主任、IEEE Fellow张晓东教授,哈尔滨工业大学的李建中教授,中科院计算所程学旗研究员,国际著名的IT研究与顾问咨询公司Gartner张瑾,以及中国移动通信、IBM、英特尔、Teradata、VMware、Yahoo!、ebay、华为、Informatica、天云、阿里巴巴、百度、腾讯、奇虎360、网易、普泽天玑、精诚资讯等重磅讲师在现场激扬技术与趋势, 聚焦应用和实践。

我们特别选出八位实践派,提炼观点与大家分享。更多专家视点请看现场直播与公布的PPT下载。

赵伟:HIVE在腾讯分布式数据仓库实践

   
腾讯 赵伟  

在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,Hive,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的Hive模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作;实现了基本的SQL功能,可扩充UDF/UDAF、自定义SerDeThrift协议、支持多语言客户端。最后他还剖析了Hive的不足并展望了HIVE的发展前景:

在他看来,Hive有四大缺点:数据仓库功能不够完善;使用门槛高(用户界面简陋、运行调试麻烦、问题定位困难、查询计划难看);性能有提升空间(SQL翻译成的MR任务效率低或者不合理);不够稳定。

腾讯赵伟表示,腾讯机器总量5000+,最大集群约2000个节点,覆盖腾讯90%+的产品。TDW集成开发环境活跃用户数:200+,每日运行的分析SQL数:50000+。每日SQL翻译成的MR job数:100000+。最近半年SLA:99.99%。这些数字表现在Hadoop方面,腾讯并不慢。

文章链接:赵伟:Hive在腾讯分布式数据仓库实践

PPT下载 :Download


潘越:从战略角度解读大数据的机遇

   
IBM 潘越  

IBM中国研究院信息管理与医疗健康首席科学家潘越,阐述了大数据的4个V:

第一个V,大数据首先代表的是数据产生的量比传统的量大很多。他认为传统的G级别或者T级别的数据存储和管理的方案,目前看起来都不太合适或者是性价比不高。

第二个V针对的是机器产生的数据。传统的分析的周期原来可能都是以月、周、天这样的时间来做分析的,而现在很多的分析都需要实时的决策,所以数据关键是速度。

第三个V,当然是用户数据的多样性。

第四个V,数据里包含的不确定性。数据的不确定性和数据的多样性之间可能也有一种天然的联系,但是也不完全地等同。

然后得出了三点结论:1.大数据并不能固守在自己的领域里面,要跟企业中其他的数据管理、信息分析结合起来。2.在大数据的部署过程中会采用很多种技术,我们不仅要看到技术的有效性,还要更多地考虑一下:如果把技术结合在一起,会产生什么样的价值。3.像大数据平台应该是一个共享的平台,应该能为大家创造一个共同协作的环境,这样就能降低成本和风险。

文章链接:潘越:从战略角度解读大数据的机遇

PPT下载 :Download


戴建勇:解读Apache Pig的性能优化

    
Hortonworks 戴建勇  

在12月1日“Hadoop生态系统”主题分论坛,Hortonworks member of technical staff戴建勇对Apache Pig的优化做出了详细的解说。

首先戴建勇分析了Pig和Hive的不同:

虽然Pig和hive是用来解决同样的问题,但Pig和Hive却着有显著不同。首先Pig是一个过程化的语言;而Hive说的是SQL的语言,是描述性的语言。许多开发者都喜欢使用过程化进行数据开发。对比Hive,Pig显得更加灵活,因为在Pig里面Schema不是必需的。Pig具有可扩充性,基本上所有的Pig函数库都是可以扩充的。

之后戴建勇还对Pig的历史以及Pig中的工具进行了充分的分享。当然重中之重Pig的优化是不可或缺的,各种Join的实现、oder by的实现、如何利用Combiner以及基于规则的优化器。戴建勇还对Pig 0.11版的新特性做出了解析。还等什么,速度点击下面的传送门吧!

最后文章链接:戴建勇:解读Apache Pig的性能优化

PPT下载 :Download


强琦:平台的意义在于交换,数据的价值在于共享

   
阿里 强琦  

在大数据共享平台与应用主题论坛上,来自阿里巴巴集团数据交换平台资深专家强琦分享了大数据探索 —— 阿里巴巴数据交换平台。强琦强调数据的价值在于共享,而平台的价值在于交换。作为平台的建造者要拿出数据给大家交换,以身做饵,以高价格的数据交换散落在蓝海中的数据。阿里巴巴未来的策略,也正是基于这点。数据单独使用,发挥价值并不大。只有把数据融合在一起,才能产生出巨大的价值。

强琦还指出阿里巴巴不会单纯的以打造平台的目的去做一个平台,会把平台的打造融入业务当中。阿里巴巴的数据交换平台是开放的,平台将打通和整合整个阿里巴巴集团的所有的数据。提供人性化的服务,建立一个统一的大数据交换平台。这也将是阿里巴巴至明年的工作重点之一。

文章链接:强琦:大数据探索-阿里巴巴数据交换平台

PPT下载 :Download


顾费勇:未来的DataStream机制

   
网易 顾费勇  

在12月29日主题论坛三大数据共享平台与应用中,网易资深工程师顾费勇为我们带了题为《海量数据搬运工——DataStream》的主题演讲。顾费勇从DataStream产生的原因、结构和特征、关键技术点、应用场景和未来的展望为我们开启了海量数搬运的篇章。 顾费勇为我们介绍了关于DataStream的试点关键技术:异构数据源解析、数据分流、数据可靠传输和数据传输效率。以数据的可靠传输为例让我们了解DataStream试点的关键技术。顾费勇认为数据的可靠传输包括四种。第一,持久化机制,将收到的消息先做持久化后发送。第二,ACK机制,可确保后端模块已收到数据,未收到则重发。第三,异常数据处理,将无法处理的异常数据保存在指定位置,可追溯来源。第四,全面覆盖的监控程序,监控所有进程的正确执行,监控系统有无异常日志,监控系统吞吐量是否不足有延迟,监控产品数据流量异常波动,监控产品有无不符合协议的日志。

文章链接:费勇:海量数据搬运工——DataStream

PPT下载 :Download


刘立萍:数据消费的改变,解决规模 ==》解决计算 ==》数据智能

   
百度 刘立萍  

在大数据共享平台与应用主题论坛上,来自百度基础架构部数据平台技术经理刘立萍介绍了百度大数据平台。刘立萍表示随着应用的需求,当我们的数据处理能力越来越强以后,对数据消费更高的要求也提出来了,而在百度内部把迭代关系划分成了三个阶段:

第一,解决规模(2007到2011年),解决基础存储和计算的问题。整个的集群、搭建的这些平台包括计算模式在很多地方都有计算过。单机群体达到五千,MPI的集群达到四千;各种计算模型,增量计算这种模型、规模在运用的过程中遇到过很多问题。随着碎片计算增多,使得大家计算资源越来越不够,任务都不能用;整个的任务,还有数据都不能附用。2011到2013年(从计算为中心转到数据为中心,对数据进行处理),这个过程中,实际上以数据仓库的技术为核心的,这也是现在正在做的事情。第三个阶段,从2013年以后(预测)。而这一阶段的期望是出现一些叫数据智能的产品。

文章链接:刘立萍:百度大数据平台介绍

PPT下载 :Download


刘佳:全面分析HBase用例

   
普泽天玑 刘佳  

在12月1日“Hadoop生态系统”主题分论坛,普泽天玑技术总监刘佳发表了题为“HBase用例分析”的演讲。刘佳主要分享了3个案例:

第一个是数据魔方,他从新旧系统的原理对比入手,详细介绍了他们如何对流程进行重新规划。

第二个是访客直播间,从系统架构的角度深度解析了HBase的应用。

最后是广点通,刘佳从业务背景出发对系统的重新部署流程做了深刻的讲解。

刘佳借以上3个案例,详述了项目过程中所遇到难题的实现方法。限于篇幅问题,详细技术请绕至下方传送门。

文章链接:刘佳:全面分析HBase用例

PPT下载 :Download


Ronaldo Ama使用虚拟技术整合大数据和云计算

   
VMware Ronaldo Ama 

VMware全球高级副总裁Ronaldo Ama在题为“大数据和云计算如何联系(云中的大数据)”的演讲中,展现了一副大数据的应用全景。在实时流技术,机器学习技术、实时处理技术、数据分析技术和批处理等多个领域展开。

其间Ronaldo Ama从技术上提出了3层模型,最上面是部署云计算技术的计算层;位于中间是数据存储和预处理的数据层;处于最下面的自然是由许多主机和网络构成的基础设施层。显然要实现易维护、高可靠性、弹性、灵活租用等都需要虚拟技术的支持。

最后,针对如何实现、部署虚拟化框架和应用,Ronaldo Ama还做了详细的阐述。

Ronaldo Ama认为,大数据很好,可以带来很多的价值!

文章链接:Ronaldo Ama使用虚拟技术整合大数据和云计算

PPT下载 :Download


更多“干货”请见HBTC2012直播页  责编:王旭东

欢迎关注@CSDN云计算微博,了解更多关于大数据的信息。

Intel:从“芯”构建下一代数据中心 WhatsApp:50名员工,月4亿活跃用户,日160亿条消息和5亿张图片 三星Galaxy Gear智能手表失利 需改进的8个方面 IE11全新的F12开发人员工具详解 研发周报:为什么开发者担心将代码公布 Hadoop YARN的发展史与详细解析 一周消息树:Firefox OS会不会成为下一个Android PhoneGap 3.3.0发布,支持Android 4.4 KitKat 移动周报:两岸三地在线编程学习网站大搜罗 有道周枫和他的“放养”团队 看IE11如何助力AAF推动公益事业 SUSE总裁Nils:将SUSE Cloud 2.0打造成“零影响的云安装程序” Windows 8之父Steven Sinofsky:2014年科技界的十大趋势 电视盒子还没智能化?看Fan TV们怎么玩 畅游启动“必赢计划” 十亿巨资代理优质产品 数据控使用Hadoop的三种最常用方式 值得创始人学习的五大企业文化管理方式 圣诞节快乐:来自程序员们的问候 宏碁任命新CEO Jason Chen:曾任职英特尔14年、台积电8年 史上第一次越狱发布会与Evad3rs太极助手罗生门 新东方在线CTO曾明:已用Cocos2d-html5开发出150余款产品 Facebook 2013年的9个开源项目 开源力量公开课2013年度庆典:我们的开源项目 看雪学院“走进企业看安全”活动走进安全管家 视频+PPT:苹果iOS7 Tech Talks大会演讲内容 iPhone 6和Galaxy S5暂不会采用弯曲屏技术 当程序不工作时,开发者常用的借口 携程技术副总裁叶亚明:三次重大技术改进的故事及背后原因 Google抛弃C语言,采用Go语言重写Go编译器 jQuery Mobile 1.4.0正式版发布,着重性能改进 IBM收购Aspera加速大数据传输 正式到新公司上班,送300分,感谢在我最困难的时候在“软件工程”版给过我帮助的朋友们!! 请问斑竹及所有人,怎样得到QuickReport的总页数? Websphere3.5的一个BUG.希望有人反对.多谢.. 什么是DAMAP的对象 哪里有 winpcap 或 libnet 及其他网络编程辅助包下载? 谁能提供PSP文档?最好是Humphrey的那本书! 代码出现bebug.请大家帮我找!!!! TO:net_lover(孟子E章),详情请入内! 有谁用过DEV express系列的dxdbgrid??它是如何把一个文本文件txt读到dxdbgrid1.columns[i]的picklist中去,作为picklist的内容的啊? 我想在Linux下做数据库开发,用什么数据好? 我的pws可能出了问题,那位高手能解决一下 关于控制winamp 各位同行你们有这个的源程序吗(Cacio DT-900数据采集器) Html Help 制作方法 luodi(无知者无畏), 请进: 我用shell(app.path+"\mdac.exe"),来调用微软数据访问控件2.0,提示出错:命令行语法错误, 求救:如何将剪贴板中的内容放到image控件上 how to get the sytax of customer user object ? jsp中的打印问题 pb中有没有类似iif之类的语句 大虾们,怎样将String 类型转换成float 请问在及时战略中,怎么实现寻路的 我想在状态栏显示时间,有没有属性可以让时间自动变化,而不用其它辅助控件? 不会没人愿意回答这个问题吧,都贴第二次了!! 吃西瓜 我在注冊自創構件時總是出錯,請各位幫忙解決. 关于ado连接sybase的问题,紧急求救!!!(我的最高分了) 29分:flexcell定位 请教一下,关于Delphi COM类型库的问题 大家来谈谈申奥成功对我们的影响吧,我想知道怎么利用这个契机大赚一笔 各位谁喜欢“后街男孩”??喜欢的给分! 请问在DBGRID中改变当前选定行的颜色? 我想在DataSourceDataChange()中实现。 客户端怎么与服务器端通信 为什么我在窗口里修改了一个记录的图片字段后,在数据窗口内不能正常显示? 我要在RedLinux71下安装WEB服务器软件,请部如何做? 如何计算某年某月的天数和每天对应的星期 help!!! 为什么我的D6在编译时出现错误:“Fatal Error QuickRpt.pas(23):File not found:'Dsgnintf.dcu' 帝国时代之农民搞笑版……哈哈 如何用DEBUG的命令取消cmos密码!!!急急急! 请教一个Redhat安装的问题 该死的创新virba128…… 急!!!给tripofdream(梦之旅)和能解决全文检索的高手! 有台WIN95机器启动是时出错缺文件mtrr.vxd,udf.vxd谁能帮我! 对于BMP图象的旋转(90、180)的处理。用BitBlt()能否实现。 《Windows网络编程技术》例子中的一个问题。 急!各位帮忙!!!!!!!!!!! 这个java程序有什么问题吗? 那能下载win2000profesional? oracle sql语句高手请进,为什么这句话无法执行,好像上了锁,来解一下吧! 有谁真正的用ado结合oracle做开发。 一个clientsocket的问题!当serversocket没有启动时,clientsocket总是有个弹出提示,如何不显示这个提示? 如图:一个圆柱体被截去5厘米后,圆柱的表面积减少了31.4平方厘米,求原来圆柱的表面积是一个圆柱体被截去5厘米后,圆柱的表面积减少了31.4平方厘米,求原来圆柱的表面积是多少?图没标圆柱 圆锥体的表面积公式 一个圆柱体的侧面积是50.24平方厘米,高和底面半径相等,这个圆柱体的表面积是多少平方厘米?算式和结果, 一个圆柱体,如果把它的高截短了3厘米,表面积就减少了94.2立方CM,体积就减少了多少立方厘米 圆锥体的表面积的公式是什么? 一个圆柱体的侧面积是100.48平方厘米,高和底面半径相等,这个圆柱体的表面积是多少? 一个圆柱的高是10cm,若高减少4cm,则表面积减少125.6平方cm,求圆柱体的体积? 圆柱体的体积 容积公式一个圆柱体 长585毫米 直径是35毫米 求体积 容积 另一个是长度560毫米 直径23毫米 求体 容积 最好有公式 体积与容积是一个意思吗? 一个圆柱体,如果高增加1cm,表面积就增加50.24平方厘米.这个圆柱的底面积是多少?我是说表面积不是侧面积 从一个圆柱上截下一个高10cm小圆柱体.表面积比原来减少了188.1平方cm截下的圆柱的体积是多少 圆锥,圆柱体表面积体积公式 一个圆柱体的高减少2厘米,表面积就减少50.24平方厘米.圆柱体底面面积是多少? 一个底面直径是8cm,高是16cm圆柱体从中间劈开后得到的图形,这个图形的表面积是多少? 在推导圆柱体公式过程中,拼出的长方体表面积比圆柱大20平厘米,圆柱体侧面积是多少? 一个圆柱体,如果它的高增加2厘米,它的表面积就增加50.24平方厘米,这个圆柱体的底面半径是多少? 一个底面直径是8cm,高是16cm的圆柱,如果它的高增加了10cm,它的表面积是多少? 球的表面积公式推导过程个位同志,球的表面积公式到底是如何推出的,为何我推了几次都是 S=π平方*R平方,原理是先割成1个半球,再把这个半球割成无数个小三角形,小三角形的底之和即为圆周 一个圆柱的高增加4厘米表面积增加50.24平方厘米,求圆柱体的底面积 一个底面直径是8cm,高是16cm圆柱体从中间劈开后得到的图形,这个图形的表面积是多少?,说清每步 圆柱形表面积的公式是什么? 一个圆柱体的高是5厘米,若高增加3厘米,圆柱的表面积就增加37.68,原来圆锥体的体积是多少立方厘米 一个圆柱体,如果把它的高截短3里厘米,表面积就减少94.2平方厘米,体积就减少了( )立方厘米? 把长2米的圆柱体木料锯成两段,表面积增加了6平方米,原来这个圆柱体的体积是() 把一个底面周长为31.4分米的圆柱体的高减少三分之一,表面积就减少了125.6平方分米,原来圆柱体的体积是多少立方分米 一个圆柱体如果它的高截短3CM,表面积就减少94.2平方厘米,体积就减少了多少立方厘米 把一个高8分米的圆柱体割拼成一个与圆柱体等底等高的近似长方体后,表面积增加了24平方分米,把一个高8分米的圆柱体割拼成一个与圆柱体等底等高的近似长方体以后,表面积增加了24平方分 一个圆柱体,底面周长6.28分米,将他平均切成4块,求每块的体积和表面积 一个圆柱体,如果把它的高截短2厘米,表面积就减少62.8平方厘米,体积就减少多少立方厘米?请把具体步骤都写一遍谢谢 把一个高8分米的圆柱体割拼成一个与圆柱体等底的近似长方体后,表面积增加24平方分把整个过程写下来 一个圆柱体高8厘米,底面周长25.12厘米.现在沿着它的直径垂直切开,表面积增加了【 】 把1张周长是80的圆柱体木柴锯成三段相等的圆柱,表面积增加了48平方厘米,原来的圆柱体木柴的体积是 把一个高8分米的圆柱体割拼成一个与圆柱体等底的近似长方体后,表面积增加24平方分米,原来圆柱体体积是多少 一个圆柱体底面周长28.26厘米,高10厘米,求表面积、体积 一个高5厘米的圆柱体,沿底面直径将圆柱体锯成两块,其表面积增加40平方厘米,原来这个圆柱的体积? 把一个高8dm的圆柱体,割拼成一个等底的近似长方体,表面积增加了24平方分米,圆柱体体积是多少? 一个底面周长和高相等的圆柱体如果高降低1厘米他的表面积就要减少6.28平方厘米这个圆柱体的体积是多少?我意思不懂 一个高为5厘米的圆柱,沿底面直径将圆柱锯成两块,其表面积增加了40平方厘米,原来这个圆柱的体积是() 圆柱体表面积公式是什么? 一个圆柱体底面周长和高相等,如果高缩短了2厘米,表面积就减少6.28平方厘米,求这个圆的体积. 一个圆柱体的体积是125.6立方厘米,底面直径是4厘米,它的侧面积是多少平方厘米?2.把一个棱长是6分米的正方体木块,削成一个最大的圆柱体,这个圆柱体的体积是多少立方分米? 求所有计算公式!和所有简算,还有求长方体正方体圆柱体圆锥体的表面积公式的体积公式!(包括字母公式)圆锥不求表面积.计算公式如:axb=bxa 一个底面周长和高相等的圆柱体,如果高降低1厘米,它的表面积就要减少6.28平方厘米,这个圆柱体的体积是多 一个圆柱体,高10厘米,如果高增加2厘米,它的表面积就增加12.56平方厘米,求这个圆柱的侧面积 圆柱体体积公式(字母)急.55555555 一个圆柱体的底面周长和高相等,如果高缩短3厘米,则表面积比原来减少94.2平方厘米,求原来圆柱体的体积?现在回答 一个圆柱体侧面积是62.8平方厘米,地面积是12.56平方厘米,它的表面积是多少平方厘米? 求圆柱体和圆锥体体积的公式 一个圆柱体底面周长和高相等.如果高缩短了2厘米,表面积就减少6.28平方厘米.求这 一个圆柱体,他的直径是10cm,高是10cm,它的表面积是多少? 圆柱体,圆锥体的表面积和容积公式分别是什么?请大家讲清楚点,还有我想知道这个公式几年级教的啊?答案能清晰点不,譬如圆柱体1 表面积2 容积(体积)圆锥体1 表面积2 容积(体积) 在一个地面直径为4分米的圆柱体上截去一个高2分米的小圆柱体,原来圆柱体的表面积减少( )平方米 底面直径是4cm,高是10cm的圆柱体,表面积、侧面积和表面积分别怎么算? 圆锥体 体积 表面积 面积公式 圆柱体 体积 表面积 面积公式看好了 6个公式 从一个高1米,底面直径为4分米的圆柱体上,截下一个高2分米的小圆柱体,原来圆柱体的表面积减少了多少平方分 若上面圆柱表面积展开图中侧面的长是25.12cm,宽是10cm.本这个圆柱的表面积. 圆锥体表面积公式用字母表示(并把每个字母代表什么讲一下)谢~ 一个圆柱体的底面直径和高都为10分米,这个圆柱体的表面积是多少平方分米? 一个高为10cm的圆柱,如果他的高增加2cm,那么它的表面积就增加125.6平方厘米,求原来圆柱的表面积. 圆锥体的表面积的计算公式? 一个圆柱体的侧面积是50.24CM2,高恰好与底面半径相等,这个圆柱体的表面积是多少?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn