说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

流计算与批处理同现:畅享大数据时代的开源实践

HTML文档下载 WORD文档下载 PDF文档下载
在2013中国大数据技术大会第二天“大数据技术”专题论坛的下午时段,大数据先锋们主要针对Tachyon、SequoiaSQL、Spark、HBase、iStream等主题进行了分享。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

在2013中国大数据技术大会第二天的“大数据”技术专题论坛的下午会议时段,分别由UCBerkeley AMPLab博士&Tachyon创始人李浩源、巨杉数据库CTO王涛、英特尔亚太研发有限公司大数据部门构架师夏俊鸾、奇虎360技术经理赵健博和阿里搜索事业部高级技术专家王峰为我们带来了精彩演讲。下午会议由ChinaHadoop社区负责人谢磊主持。


ChinaHadoop社区负责人 谢磊

李浩源:MemoryProcessing: How Far CanWe Go? 


UC Berkeley AMPLab博士、Tachyon创始人 李浩源

下午场,首先进行分享的是李浩源。他着重分享了Tachyon项目的几个主要特性:

  • 无需更改即兼容Spark和Hadoop
  • 提供Java式的文件API
  • 为raw table提供原生支持。

同时,它还提供了一个PinList功能,可以保证程序即使在内存不足的情况下也可以永远运行在内存之中。

 涛:基于Cloudera Impala的非关系型数据库SQL执行引擎


巨杉数据库CTO 王涛

第二位分享嘉宾王涛带来的则是Impala实践:SequoiaDB是一种文档类的NoSQL数据库,SequoiaSQL则是基于开源项目Cloudera Impala开发的SQL执行引擎。SequoiaSQL不仅仅是“SQL-on-Hadoop”、支持JDBC、兼容Hive驱动,相对Cloudera Impala而言,在下面4点进行了功能增强:

  • 加入SequoiaDB与关系型数据库的读写接口
  • 将metastore嵌入SequoiaDB
  • 增加Update/Delete/Merge语句
  • 查询谓词下压,利用数据库索引提升性能

测试数据表明,SequoiaSQL相对Hive的性能来说,能够达到10倍以上的提升。最后,他也分享了未来的产品计划,如支持聚合下压、排序下压、支持嵌套类型、支持数组类型等,最终将进行基于成本的性能优化。

夏俊鸾:Spark:基于内存的下一代大数据分析框架


英特尔亚太研发有限公司大数据部门构架师 夏俊鸾

随后进行分享的是夏俊鸾,通过他我们了解到,早在2011年Intel就开始贡献Spark项目。当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。


他重点对用户在使用Spark时经常关心的几个方面进行了解释:

  • 性能:Spark基于内存,硬件条件足够,可以满足高性能的要求
  • 学习成本:Spark相对Hadoop MapReduce、Impala等来说非常轻量,代码学习成本较低
  • 稳定程度:Spark虽然处于开源社区状态,文档没有Hadoop齐全,但release版本非常稳定
  • 假如内存不足:Spark在遇到内存不足的情况下自动降级运行,减少内存占用
  • 容错:高
  • 兼容性:Spark完全兼容Hadoop

在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。当下Intel在中国的合作伙伴已包括阿里巴巴、优酷及爱奇艺。

赵健博:奇虎360超大规模HBase集群增强与改进


奇虎360技术经理 赵健博

赵健博带来了下午场第四个分享,通过他我们了解到,目前360如搜索业务(网页库、链接库、快照库)、安全业务、监控业务等都已应用了HBase集群。

他重点从7个方面对奇虎360近一年来在HBase上作出的改进进行了详细介绍:

  • 专属MetaServer
  • 启动优化
  • Scan
  • Compaction
  • 保护模式
  • 客户端超时保证
  • 索引预加载

如启动优化方面,他们面临着影响集群启动时间的问题:集群大、region多。在集群启动时间消耗中,region打开的过程占了大头。比如,对搜索集群而言,40万个region,启动时间长达3小时,region打开时间需要2小时45分钟。对此,他们给出了对应改进:多线程并行化region检查、减少单个RS region分配时的持锁时间、去除重复的NN访问等。应用这些改进后,搜索集群的启动速度得到了4倍提升。

根据奇虎360的HBase使用经验,他给大家提出了4条有帮助的建议:

  • 根据预期规模,预先创建region
  • 控制region的数量与大小
  • 控制compaction时机与数据: 低峰时操作、避免重复IO
  • 实时监控region健康情况,保持In meta与on server的一致性

未来他们仍继续结合业务在减少region的数量、随机读优化(减少读数据量)、二级索引、服务可用性等方面对HBase进行功能改进。

王峰:阿里搜索实时流计算技术


阿里搜索事业部高级技术专家 王峰

本届BDTC “大数据技术”专题论坛的最后一个分享来自王峰,他介绍了阿里搜索流计算技术iStream诞生的业务背景,其中商品搜索的时效性(秒级)要求是非常高的,比如全网商品降价后需要实时通知给订阅用户、全网商品出现优惠打折需要实时在首页推荐、全网商品抓取后需要实时处理并推送到搜索引擎等。

本次分享中,他重点从下面5个方面对iStream的计算模型进行了详解讲解,这也是一淘首次对外展示iStream计算模型:

  • 基本概念
  • 拓扑结构
  • 消息管理
  • 进度管理
  • 编程接口

iStream的设计遵循了“计算和存储分层、计算之间解耦”、“计算层间采用持久化分布式消息队列进行消息传递”的理念,上下游计算解耦、不互相阻塞进度,使得新业务更加方便接入;持久化的消息流,也方便了多业务共享数据以及问题的追查。 目前,iStream已经广泛应用到一淘和淘宝的大部分生产线上,产生了良好的效果:


最后,被问到未来iStream是否有开源计划时,王峰解释说:公司有自己的淘代码项目,但是这个项目(iStream)做的不是特别久,也正处于生产的上线观察阶段,目前还不合适开源;如果iStream系统获得足够稳定后,包括概念、算法上都没有问题后,可以对iStream进行开源。

更多精彩内容,请关注直播专题 2013中国大数据技术大会(BDTC)   ,新浪微博 @CSDN云计算

IE11开发人员工具:UI响应工具详解 2013 Linux领域年终盘点 腾讯云俱乐部深圳站成功落幕 开创移动开发新篇章 解读云计算、大数据、物联网等九大IT技术发展趋势 苹果已证实收购Topsy或将涉足社交领域 触摸未来:Tactus微流体技术2014年来袭 Windows的未来:一个核心 多个版本 Github项目中使用率最高的Java/Ruby/JS库 2013中国大数据技术大会盛大开幕 从黑色星期五找到的六个规则 帮助网站转化 移动开发者的自学宝典:十大在线编程学习网站 MIT新技术:远程触摸和操纵实物 创新人机交互 中国移动研究院业务支撑研究所所长孙少陵:大数据实时处理技术发展趋势及中国移动实践和展望 “第一届中国大数据技术创新与创业大赛”主办方发言及创新分赛颁奖 中国移动研究院业务支撑研究所所长孙少陵:大会及与会嘉宾介绍 中国工程院院士、大数据专家委员会主任李国杰:能挖掘出价值的数据就是好数据 阿里飞天平台总架构师唐洪:飞天开放平台 百度大数据首席架构师林仕鼎:新计算时代 金山发布全系列IaaS平台 Google无人驾驶汽车与机器人组合,秒杀无人机 Google欲推新Chrome应用:适用于Android、iOS平台 comScore:美国市场苹果手机独占鳌头 Android和iOS双寡头垄断 一周消息树:新技术实现远程触摸和操纵实物 创新人机交互 研发周报:帮助网站转换的六大黑色星期五规则 【开源专访】JFinal作者詹波:以极简方式实现Web项目的极速开发 2013中国智能交通与大数据技术峰会:迎接交通大数据新时代 大数据应用技术(上):加速创新,重塑世界 英特尔百度携手推出首个跨平台应用商店 12月9日:计算机软件第一夫人Grace Hopper出生 触摸屏将成笔记本标配 电脑行业或将迎来又一春 触摸4G,你必须要知道的那些事儿 这么晚了还有哪位大仙在 立即给分,寻求操作Formula One 的代码!谢谢 斑竹, 斑竹, 你等我结了帖子再删, 好吗? COM,COM,COM问题急救,快快快 送给phoenixdyy吧, 不要客气呀 在sun网站上到那个地方下栽 Java 类文件? 送给cathy的, 不要客气 我老老实实的学习去, 学不成不会回来的, 大家顺利 为什么我的这个php不执行? 有关CASE工具 请问怎么样将VB程序打包?就是生成一个不需要源代码和没有VB编译器的环境下可以运行的可执行程序。 关于如何做OEM 请教大师 这是所谓的“情”吗?谁碰到过如此谎谬的事~~“我们这样算什么?!” 分值,就那么重要吗?大家来探讨一下! 请问如何用TC或BC或VC实现字符界面下文本阅读器(请尽快复) lemonade请进 请教水平考试 请赐教如何制作WINDOWS下的电子行程表(请尽快复) 号外!!号外!!谁能认真点回答我这个问题? 学了C和JAVA以后,我该学哪中语言? 这么晚了,还有谁在水园? 如何用JSP实现聊天是中的自动滚屏功能? 我的FlashGet,NetAnts全都没有办法下载了!!!急死我了!!! 探讨用专业论坛和新闻组来促销,那位兄弟有经验? 一个简单的问题,大家来看罗。 如何禁止EDIT控件输入? To:pbdesigner兄弟没找到解决的办法,只好修改程序流程避开这个问题8-( 小弟该如何学习? Actinia在吗?问你个问题! 今天又有人送分,he he! VC快玩完了!!!!改学BCB!!!! 一个简单的问题,关于cin的 怎样向listview发送消息? N人上班,按照白、夜、休三班倒,如何每月按此顺序自动排班 TreeView接点如何响应单击事件? 我的一本c++教程,刚刚下载了练习答案,不会用, 请问这是个什么东东问题?(只有这么多分了。。) 一张表内关键字如何互换? 本人想插入一个记录,但该记录的一个字段是一个已经输入的值,你说该用什么函数处理呀?本人想了一个早上也想不出个原因来!!!! 今天真热,一大早爬起来去游泳,感觉真好。这里有喜欢早晨去游泳的吗? DCOM问题。Win2000下的服务器应怎样配置,才能使客户机调用服务器端的DCOM。 再不帮我我就死定了 我要哭了! 痛苦:如果你的头儿叫你帮他修改他写的一大段垃圾代码,你会怎么做办? 工程为什么不能打包? 高手快来。 请问怎么安装PB 那有Acrobat下載,不是Acrobat Reader Foxpro的ODBC,是不是真的就不支持update当前游标的记录....? 怎么在SQLSERVER2K里用存储过程得到的完整的Xml文件,我想用jsp取出来? 典范英语的第6册第1本如何翻译. “他喜欢和老人们交谈、下象棋.”这句话怎么用英语翻译? 先正达与拜耳哪个好 英语翻译 北京市中国的首都吗?用英语怎么翻译 血糖仪,杭州哪里有卖拜耳的血糖仪的啊? 九年级英语116页翻译 英语翻译外国的一个朋友给我发快递.结果小弟很尴尬不知道自己家的英文地址 麻烦帮忙翻译下北京市海淀区太平路47号院 10号楼 甲门 401跪求一个准确无误的翻译~中国北京市海淀区太平路47 英语高手帮我翻译一个地址,请把这个地址翻译成英文:北京市石景山区永乐东小区40楼2门101室.邮编100040 英语翻译人教版的,每个单元的翻译,给30分! 中国的首都是北京,我等不及要去哪儿翻译成英语 英语翻译邮编710048中国陕西省西安市碑林区东关南街古迹岭小区请问这个地址英文邮编写的时候是这样写:Shaanxi Province,P.R.China 710048,还是Shaanxi Province,710048P.R.China 东关南街的英文是 South Dongg 九年级英语书54页阅读翻译 北京是中国的城市,中国的首都.翻译成英文 中国地址翻译 北京市丰台区西罗园三区20号楼1004号 的英文翻译怎么翻?另外,邮编怎么书写 九年级英语教材翻译unit 2 16页短文翻译 题目是He used to cause a lot of trouble. 为什么历代皇帝都要把北京选为首府?能不能再全面点,具体点? 英语翻译韩国京畿道龙仁市处仁区白岩面白岩里409号统一大厦(或hana大厦)309号金龙云 九年级英语9单元sectionB3a翻译关于茶的那个版本! 英语翻译“中国 江西省 南昌市昌北经济开发区 江西财经大学麦庐园静庐E栋620” 英语翻译 求 新目标九年级英语unit14的Reading部分的翻译!急·50分 英语翻译您是昨天那个卖酒的小女孩吗?我是昨天向您要电话中国人.您忘记了吗?电话号码 上面补充一下 英语翻译 新目标九年级英语p137 Unit14 sectionA翻译 英语翻译舟山市定海区临城街道建设大厦C幢13楼 英语翻译:中国的名胜古迹你都听说过哪些? 新目标英语八年级上册unit2 B翻译3a..3b..4 用英文翻译地址香港新界荃湾新村街40号2楼 英语翻译大雁塔小雁塔钟楼大唐芙蓉园兵马俑 英语翻译 英语翻译1.每天要查阅单位重要工作呈阅件,把工作落实到人到位2.活到老学到老将是不懈的追求.3.尽快的熟悉环境,尽快的熟悉人员,尽快的熟悉业务,做到嘴勤、眼勤、手勤. 英语翻译:北京的历史很悠久,还有名胜古迹多,可以吃到很多美食. 人教版七年级上册英语unit2,sectionB 2b的意思Hi,I am Jenny.Here are two nice photos of my family.My grandfather and grandmother are in the first photo. These are my parents,Alan and Mary. In the next picture are my brothers,Bob and Eric. 英语翻译Electronic technology is facilitating thisgrowth by offering access to fare and hotel information and online reservationservices .In Goa,villagers forced to walk to wellsfor their water had to watch as a pipeline to a mew luxury hotel was 英文翻译. 刘德华要在北京开演唱会吗? 英语翻译 英语翻译My college life,let dream fly. 你打算到哪儿度假?英语翻译 英语翻译when people use words and expressions different from the ''shandard language '' ,it is called a dialect .american english has many dialects .especially the midwestern ,southern ,African American and spanish dialects .even in some part of 我和我的家人住在一起.英文翻译 山东省青岛市经济技术开发区北江路7号507室 英文这么翻译 初一英语下册第4单元Reading的翻译 英语翻译“五年前我住在北京”和“我住在北京五年了”分别怎么翻译 “五年前我住在北京”这么翻译行吗——I was living in beijing five years ago 他还想去别的什么地方吗?英文翻译~ 苏教版初一英语上学期第四课reading课文翻译 我们大多数住在像这样的高楼 英语翻译? “去任何自己想去的地方”英语翻译优美点如题 初一英语下册第三单元Reading翻译 英语翻译 英语翻译so the difference between $125 and $134 may be viewed as risk premium you may choose to pay to lock in the future tuition at year amountif cash flow regularities are present within the stream,the use of shortcuts,such as finding the prese 英语翻译 英语翻译初一下册11单元selfcheck3 1.北京市朝阳区十里堡一号院恒泰大厦B座7016室 2.商务部 3.工程部 这三个都是做名片时要翻译成英语的,大 英语翻译 英语翻译”我在等待生命的光芒,生命却在等待我的迷茫.“这句话的翻译 你想象中的拜耳 英语翻译 英语翻译:我想和老人住在一起. 血糖仪拜耳的好不啦?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn