说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

流计算与批处理同现:畅享大数据时代的开源实践

HTML文档下载 WORD文档下载 PDF文档下载
在2013中国大数据技术大会第二天“大数据技术”专题论坛的下午时段,大数据先锋们主要针对Tachyon、SequoiaSQL、Spark、HBase、iStream等主题进行了分享。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

在2013中国大数据技术大会第二天的“大数据”技术专题论坛的下午会议时段,分别由UCBerkeley AMPLab博士&Tachyon创始人李浩源、巨杉数据库CTO王涛、英特尔亚太研发有限公司大数据部门构架师夏俊鸾、奇虎360技术经理赵健博和阿里搜索事业部高级技术专家王峰为我们带来了精彩演讲。下午会议由ChinaHadoop社区负责人谢磊主持。


ChinaHadoop社区负责人 谢磊

李浩源:MemoryProcessing: How Far CanWe Go? 


UC Berkeley AMPLab博士、Tachyon创始人 李浩源

下午场,首先进行分享的是李浩源。他着重分享了Tachyon项目的几个主要特性:

  • 无需更改即兼容Spark和Hadoop
  • 提供Java式的文件API
  • 为raw table提供原生支持。

同时,它还提供了一个PinList功能,可以保证程序即使在内存不足的情况下也可以永远运行在内存之中。

 涛:基于Cloudera Impala的非关系型数据库SQL执行引擎


巨杉数据库CTO 王涛

第二位分享嘉宾王涛带来的则是Impala实践:SequoiaDB是一种文档类的NoSQL数据库,SequoiaSQL则是基于开源项目Cloudera Impala开发的SQL执行引擎。SequoiaSQL不仅仅是“SQL-on-Hadoop”、支持JDBC、兼容Hive驱动,相对Cloudera Impala而言,在下面4点进行了功能增强:

  • 加入SequoiaDB与关系型数据库的读写接口
  • 将metastore嵌入SequoiaDB
  • 增加Update/Delete/Merge语句
  • 查询谓词下压,利用数据库索引提升性能

测试数据表明,SequoiaSQL相对Hive的性能来说,能够达到10倍以上的提升。最后,他也分享了未来的产品计划,如支持聚合下压、排序下压、支持嵌套类型、支持数组类型等,最终将进行基于成本的性能优化。

夏俊鸾:Spark:基于内存的下一代大数据分析框架


英特尔亚太研发有限公司大数据部门构架师 夏俊鸾

随后进行分享的是夏俊鸾,通过他我们了解到,早在2011年Intel就开始贡献Spark项目。当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。


他重点对用户在使用Spark时经常关心的几个方面进行了解释:

  • 性能:Spark基于内存,硬件条件足够,可以满足高性能的要求
  • 学习成本:Spark相对Hadoop MapReduce、Impala等来说非常轻量,代码学习成本较低
  • 稳定程度:Spark虽然处于开源社区状态,文档没有Hadoop齐全,但release版本非常稳定
  • 假如内存不足:Spark在遇到内存不足的情况下自动降级运行,减少内存占用
  • 容错:高
  • 兼容性:Spark完全兼容Hadoop

在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。当下Intel在中国的合作伙伴已包括阿里巴巴、优酷及爱奇艺。

赵健博:奇虎360超大规模HBase集群增强与改进


奇虎360技术经理 赵健博

赵健博带来了下午场第四个分享,通过他我们了解到,目前360如搜索业务(网页库、链接库、快照库)、安全业务、监控业务等都已应用了HBase集群。

他重点从7个方面对奇虎360近一年来在HBase上作出的改进进行了详细介绍:

  • 专属MetaServer
  • 启动优化
  • Scan
  • Compaction
  • 保护模式
  • 客户端超时保证
  • 索引预加载

如启动优化方面,他们面临着影响集群启动时间的问题:集群大、region多。在集群启动时间消耗中,region打开的过程占了大头。比如,对搜索集群而言,40万个region,启动时间长达3小时,region打开时间需要2小时45分钟。对此,他们给出了对应改进:多线程并行化region检查、减少单个RS region分配时的持锁时间、去除重复的NN访问等。应用这些改进后,搜索集群的启动速度得到了4倍提升。

根据奇虎360的HBase使用经验,他给大家提出了4条有帮助的建议:

  • 根据预期规模,预先创建region
  • 控制region的数量与大小
  • 控制compaction时机与数据: 低峰时操作、避免重复IO
  • 实时监控region健康情况,保持In meta与on server的一致性

未来他们仍继续结合业务在减少region的数量、随机读优化(减少读数据量)、二级索引、服务可用性等方面对HBase进行功能改进。

王峰:阿里搜索实时流计算技术


阿里搜索事业部高级技术专家 王峰

本届BDTC “大数据技术”专题论坛的最后一个分享来自王峰,他介绍了阿里搜索流计算技术iStream诞生的业务背景,其中商品搜索的时效性(秒级)要求是非常高的,比如全网商品降价后需要实时通知给订阅用户、全网商品出现优惠打折需要实时在首页推荐、全网商品抓取后需要实时处理并推送到搜索引擎等。

本次分享中,他重点从下面5个方面对iStream的计算模型进行了详解讲解,这也是一淘首次对外展示iStream计算模型:

  • 基本概念
  • 拓扑结构
  • 消息管理
  • 进度管理
  • 编程接口

iStream的设计遵循了“计算和存储分层、计算之间解耦”、“计算层间采用持久化分布式消息队列进行消息传递”的理念,上下游计算解耦、不互相阻塞进度,使得新业务更加方便接入;持久化的消息流,也方便了多业务共享数据以及问题的追查。 目前,iStream已经广泛应用到一淘和淘宝的大部分生产线上,产生了良好的效果:


最后,被问到未来iStream是否有开源计划时,王峰解释说:公司有自己的淘代码项目,但是这个项目(iStream)做的不是特别久,也正处于生产的上线观察阶段,目前还不合适开源;如果iStream系统获得足够稳定后,包括概念、算法上都没有问题后,可以对iStream进行开源。

更多精彩内容,请关注直播专题 2013中国大数据技术大会(BDTC)   ,新浪微博 @CSDN云计算

Amazon强攻私有云市场,目标锁定银行 微软的24年数据中心之路 Flurry:约会应用男同性恋用的最多 jQuery消息提示框的简单实现 Mozilla CTO:Mozilla不会转向WebKit 这很重要 Pinterest或超Twitter成第二大社交网站 适合儿童上手的八款编程工具 一周云事件:亚马逊对消费者的吸引力超过苹果 比尔·盖茨对微软创新和手机不满意 让我们一起来做最漂亮的Android界面吧! 响应高达6秒 用户揭露Heroku修改路由“50倍圈钱”? [探讨]响应式设计四大原则 Linux Kernel 3.8发布 停止支持386设备 HTML5手机游戏引擎Devkit开源 程序员的一天:台湾个人移动游戏开发者 极限破解:利用低温环境读取Android加密数据 五种工具保护你的在线隐私 从打压到支持 微软与GitHub的爱恨情仇 “夫妻档”初创公司百万美元打造实时Hadoop系统 编程从娃娃抓起:13岁儿童的移动游戏之梦 新浪管理层调整 许良杰任CTO兼联席总裁 Java,你还会让多少人继续“受伤”? 中国或超美国 成全球智能设备市场霸主 告别手写 API文档生成工具推荐 微软Azure超越亚马逊云计算的性能测试 苹果创新已经被三星超越 不靠广告也盈利:移动应用掘金7大案例剖析 谈Clash of Clans货币化的成功 UX设计师应当规避的七大问题 初创公司Citus Data将CitusDB扩展到Hadoop 移动医疗:巢儿孵化器为何笃信是创业金矿? 数据库问题,急!!急!急!急!急! CISCO2600的ISDN拔号不会自动断线,怎么办? 谁知道怎么验证一个用户名和一个密码是不是在WINDOWS2000中添加过的?而且正确? 。。。谁能给我发一个“智能狂拼2”的下载连接地址 请求--网页评比规则? 在visual.net上无法调试存储过程。急。求救 asp加密程序 我用SQL server+DElphi中的ADO做数据应用程序,数据库备份后,怎样实现数据库的恢复? 贴子太多了,看不过来了,大力liuri出来讲讲 sqlserver 用 jdbc出错 ,Microsoft][SQLServer 2000 Driver for JDBC]Error setting up static cursor cache 如何在C#中用代码控制本地FTP服务打开和关闭?99分,中秋快乐. 关于dll的问题,在线求教 昨晚,我抱了我MM一下!开心呀!散分! 有什么软件可以使上网不受防火墙的限制? 一个C的图形函数,请问怎样用的? 数据库查询语句执行错误 web页面的activex控件怎么调用服务器上的动态连接库?? 中秋散分 【泰坦】祝大家中秋节快乐!(1) 纯jsp聊天室的页面刷新问题 这个MSDN是不是常说的那个MSDN资料库? 一句sql语句问题 【泰坦】祝大家中秋节快乐!(2) 我的触发器为什么没有响应啊。在线等啊 pb9.0+sql server 2000,怎样制作程序发布? pb给dll传递结构数组的问题。急!!! pb9.0+sql server 2000,怎样制作程序发布? 为什么关闭MSDEV的时候,会导致它占用90%以上的CPU时间??? 如何在代理中同時讓兩個套表同時結案 菜鸟问题:我想把一个CString类型转换成LPBYTE类型应该怎么弄? 如何在JRUN3.1中连接SQLSERVER, 我的web server用的是IIS5 怎么样在JSP中显示 WORD 或 WPS 格式的文件? 如何在servlet 中存储数组用javabean 取数组用JSP显示(在线等,急,谢谢) 如何使Response.Redirect "xxx.htm"打开的网页是满屏显示! 鄙视民工的人,给你讲个故事听。 庆祝中秋佳节,大散分~ 中秋节到了,与大家同庆,散点分!!!祝大家开心呀! VC的bug!!! 游戏、网络、图形等版块正在整顿中,有意见或建议欢迎提出!! 如何进一步提高C语言的功力???? 学习JSP的过程中遇到的问题(问题1),请进!!! 大家说一下网上下载的水晶报表crystal report 9.0会过期吗!!买一套要好几万的! 有个问题想请教,关于数码相机生成的图片的格式及存储方式! 在网站上数据保密问题 我用Inet控件下载文件时,经常会遇到无法结束程序的问题? 我在用电脑的时候,有时会提示我们插入WIN98光盘,但我现在用的这台,它会自动扫描的,自动查找,是怎么回事啊,在线等啊。 请问有DOS下的C++编译器吗???哪里下载?? 如何指定DataGrid的列宽呀 求boundschecker下载地址 怎么实现放大缩小的功能? 广州一妓女出租屋中被杀 被单缠身只穿一条内裤 求此图来源~ 求此图来源出处求此图出处,发链接,发名字 蜜蜂的春季管理 这个世界谁最优秀, 秋色到深闺,夜扫梧桐叶的含义 沁园春长沙作者笔下的秋景活泼美好的这样写有什么意义 柏拉图为什么要将诗人逐出理想国? 介绍一种自己最喜爱的家乡(启东)特产,并给它拟一条广告词,让它走出家乡,名扬天下. 乙酸乙酯可否点燃 1.将氟碘硫氢置于水中加热,过十分钟后加10毫升乙酸,14.8克葡萄糖和5.85克氯化钠最后生成什么?2.什么东西加酸会有气泡,加热会凝固,加硝酸会变成黄色(即蛋白质),空气中放置一段时间后有 做实验需要乙醇丙酮等化学试剂,听说北航和北医三院那边有卖的地方, 俄罗斯法律规定亲友要对恐怖分子行为担胡万林第一任妻子:从没见其学医 庆幸“神医”胡万林案受害者之父:案情或另德媒调侃奥巴马:没有朋友了 至少你有俄学者:不要对伊核谈判前进步伐抱过高尼日利亚军方打死95名武装分子美国对中国等七国钢铁产品发起贸易救济英媒称美监听35国政要 奥巴马被称愈英国首个“音乐试管婴儿”诞生 狂爱听北京天坛公园频发虐猫事件 已致数十只俄罗斯免费医疗陷入两难境地 有效果难复仇韩国 预演争冠这次救主的不是梅球王张国伟:“我不是偶像派”鸟巢飞燕畅游天 笑迎冰雪又七年NBL:河南两队双双告负吕会会:银牌也是惊喜世锦赛破亚洲纪录夺银牌古稀老人15年坚持资助贫困生心智障碍人士大渡口义卖画作今天昼夜温差近10℃中国选手收官日再创佳绩万世神君哈利波特与秘密宝藏极品直播之无限作死江山盛世火影之副本系统混在大明当皇帝为长生大数据修炼系统北宋有坦克天上有仙地府执事回龙景区旅游龙泉寺旅游星湖湿地公园旅游青云谱旅游玉龙洞旅游芳草园旅游六顶山渤海墓群旅游玉泉国际狩猎滑雪场旅游下枧河旅游白龙公园旅游上海观光游巴士THEBIGBUS旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘