说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

流计算与批处理同现:畅享大数据时代的开源实践

HTML文档下载 WORD文档下载 PDF文档下载
在2013中国大数据技术大会第二天“大数据技术”专题论坛的下午时段,大数据先锋们主要针对Tachyon、SequoiaSQL、Spark、HBase、iStream等主题进行了分享。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

在2013中国大数据技术大会第二天的“大数据”技术专题论坛的下午会议时段,分别由UCBerkeley AMPLab博士&Tachyon创始人李浩源、巨杉数据库CTO王涛、英特尔亚太研发有限公司大数据部门构架师夏俊鸾、奇虎360技术经理赵健博和阿里搜索事业部高级技术专家王峰为我们带来了精彩演讲。下午会议由ChinaHadoop社区负责人谢磊主持。


ChinaHadoop社区负责人 谢磊

李浩源:MemoryProcessing: How Far CanWe Go? 


UC Berkeley AMPLab博士、Tachyon创始人 李浩源

下午场,首先进行分享的是李浩源。他着重分享了Tachyon项目的几个主要特性:

  • 无需更改即兼容Spark和Hadoop
  • 提供Java式的文件API
  • 为raw table提供原生支持。

同时,它还提供了一个PinList功能,可以保证程序即使在内存不足的情况下也可以永远运行在内存之中。

 涛:基于Cloudera Impala的非关系型数据库SQL执行引擎


巨杉数据库CTO 王涛

第二位分享嘉宾王涛带来的则是Impala实践:SequoiaDB是一种文档类的NoSQL数据库,SequoiaSQL则是基于开源项目Cloudera Impala开发的SQL执行引擎。SequoiaSQL不仅仅是“SQL-on-Hadoop”、支持JDBC、兼容Hive驱动,相对Cloudera Impala而言,在下面4点进行了功能增强:

  • 加入SequoiaDB与关系型数据库的读写接口
  • 将metastore嵌入SequoiaDB
  • 增加Update/Delete/Merge语句
  • 查询谓词下压,利用数据库索引提升性能

测试数据表明,SequoiaSQL相对Hive的性能来说,能够达到10倍以上的提升。最后,他也分享了未来的产品计划,如支持聚合下压、排序下压、支持嵌套类型、支持数组类型等,最终将进行基于成本的性能优化。

夏俊鸾:Spark:基于内存的下一代大数据分析框架


英特尔亚太研发有限公司大数据部门构架师 夏俊鸾

随后进行分享的是夏俊鸾,通过他我们了解到,早在2011年Intel就开始贡献Spark项目。当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。


他重点对用户在使用Spark时经常关心的几个方面进行了解释:

  • 性能:Spark基于内存,硬件条件足够,可以满足高性能的要求
  • 学习成本:Spark相对Hadoop MapReduce、Impala等来说非常轻量,代码学习成本较低
  • 稳定程度:Spark虽然处于开源社区状态,文档没有Hadoop齐全,但release版本非常稳定
  • 假如内存不足:Spark在遇到内存不足的情况下自动降级运行,减少内存占用
  • 容错:高
  • 兼容性:Spark完全兼容Hadoop

在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。当下Intel在中国的合作伙伴已包括阿里巴巴、优酷及爱奇艺。

赵健博:奇虎360超大规模HBase集群增强与改进


奇虎360技术经理 赵健博

赵健博带来了下午场第四个分享,通过他我们了解到,目前360如搜索业务(网页库、链接库、快照库)、安全业务、监控业务等都已应用了HBase集群。

他重点从7个方面对奇虎360近一年来在HBase上作出的改进进行了详细介绍:

  • 专属MetaServer
  • 启动优化
  • Scan
  • Compaction
  • 保护模式
  • 客户端超时保证
  • 索引预加载

如启动优化方面,他们面临着影响集群启动时间的问题:集群大、region多。在集群启动时间消耗中,region打开的过程占了大头。比如,对搜索集群而言,40万个region,启动时间长达3小时,region打开时间需要2小时45分钟。对此,他们给出了对应改进:多线程并行化region检查、减少单个RS region分配时的持锁时间、去除重复的NN访问等。应用这些改进后,搜索集群的启动速度得到了4倍提升。

根据奇虎360的HBase使用经验,他给大家提出了4条有帮助的建议:

  • 根据预期规模,预先创建region
  • 控制region的数量与大小
  • 控制compaction时机与数据: 低峰时操作、避免重复IO
  • 实时监控region健康情况,保持In meta与on server的一致性

未来他们仍继续结合业务在减少region的数量、随机读优化(减少读数据量)、二级索引、服务可用性等方面对HBase进行功能改进。

王峰:阿里搜索实时流计算技术


阿里搜索事业部高级技术专家 王峰

本届BDTC “大数据技术”专题论坛的最后一个分享来自王峰,他介绍了阿里搜索流计算技术iStream诞生的业务背景,其中商品搜索的时效性(秒级)要求是非常高的,比如全网商品降价后需要实时通知给订阅用户、全网商品出现优惠打折需要实时在首页推荐、全网商品抓取后需要实时处理并推送到搜索引擎等。

本次分享中,他重点从下面5个方面对iStream的计算模型进行了详解讲解,这也是一淘首次对外展示iStream计算模型:

  • 基本概念
  • 拓扑结构
  • 消息管理
  • 进度管理
  • 编程接口

iStream的设计遵循了“计算和存储分层、计算之间解耦”、“计算层间采用持久化分布式消息队列进行消息传递”的理念,上下游计算解耦、不互相阻塞进度,使得新业务更加方便接入;持久化的消息流,也方便了多业务共享数据以及问题的追查。 目前,iStream已经广泛应用到一淘和淘宝的大部分生产线上,产生了良好的效果:


最后,被问到未来iStream是否有开源计划时,王峰解释说:公司有自己的淘代码项目,但是这个项目(iStream)做的不是特别久,也正处于生产的上线观察阶段,目前还不合适开源;如果iStream系统获得足够稳定后,包括概念、算法上都没有问题后,可以对iStream进行开源。

更多精彩内容,请关注直播专题 2013中国大数据技术大会(BDTC)   ,新浪微博 @CSDN云计算

硝烟弥漫:三星起诉苹果最新iPad、iPod侵权 效仿Google Facebook欲整合Instagram用户数据 与苹果全面竞争?传微软明年推Xbox机顶盒 微软Ralph Haupter:WP8即将在中国上市 开发者黄金时代来临 Paul Graham:Y Combinator创始人成长轨迹 我们需要强密码吗? 为了改变?英特尔CEO宣布将于明年5月辞职 传苹果下一代Mac OS中将整合Siri及地图服务 TripAdvisor:使用AWS比服务器托管成本节省50% [MDCC精华]亚马逊AWS布道师Kingsley Wood:灵活IT架构之道 亚马逊诉讼彰显谷歌在公有云领域威慑力十足 AWS全球创业大赛 奖金100000美元 YY:破冰而出,成功上市 Xtreme Labs工程师:Android开发常陷入的五大深坑 Elon Musk:没了乔布斯的苹果干不过谷歌 旁门左道:第一次开发移动游戏就赚到28623美元 移动周报:小聪明赚大钱 游戏SEO如何耍鸡贼? 创翼全国 六城联动——2012移动互联网应用创新大赛开放日 全国六城联动沙龙 爱丽丝+福尔摩斯 Game Insight解谜游戏玩出新花样 Windows Phone 8 SDK大升级:部分功能兼容WP7 信息大图《愤怒的小鸟》发家史 Intel预测:10年之后你的手机是48核的 消息推送惹怒用户:应用开发者请别太过分 创新工场:我们如何孵化未来? iOS越狱比例下降:国内移动开发环境怎么了? 响应式图像技术与资源分享 看Twitter如何应对大选:少些Ruby 多些Java 软件开发中常见的十大系统瓶颈 [CTO俱乐部87期]三人行架构分享:开源是背后的支柱 推荐5款超实用的.NET性能分析工具 OpenStack基金会主席Alan Clark访华 欢迎提问 请帮我修改一下源代码(delphi)请帮忙改一下,让它打印了不往里(数据库)存。 BIOS设置,用电脑是不是可以当闹钟呢? 五笔输入法忽然不能用了 救就我,为什么Frame的客户区变小了?关于切分窗口 怎样查找某一个目录下一个表是否存在? 请问有用过李阳疯狂英语的朋友吗?请说说到底怎么样? 我想向各位大侠请教一个问题? 如何屏蔽TEXTBOX的回车响应? 关于《各位学习编程的目的是什么》的总结 m_pusrrcdset->m_pDatabase->ExecuteSQL("")为什么不行?老是ASSERT错误 请问我刚入bcb的大门,有什么好的参考书可以看看吗? 有没有人知道计算机等级考试四级怎么查分啊? 如何将几个数组的信息写成一个.txt文本文件 笔试题请教? 请教一个小问题! 好难呀好难呀!!!!! 今天狠了狠心买了一本<>,花了我十分之一的工资!心疼啊!散点分! 请问有谁知道如何在C#中使用DirectX? 我在Picturebox中用Picture1.print打了200行数据,可我只能看到前20行 pb数据窗口中的列名在win2000 server里为什么显示不了中文? God save me,help...... tcl手机所使用的是那种操作系统,能否告知小弟,重分相谢! 异常中的问题 刷新对话框的背景图片(基于对话框的程序,而且刷新不只一次)! 请问? 急急急!!上网后的图标不见了!!! 为什么我写了个JSP写入数据库中的中文在数据库中查看是乱码? 用vb制作动态网页 怎么给分给别人? 怎么获得光驱的倍数,设定光驱的倍数啊 怎么破解WIN2000的管理员密码!急!!!! SDK、API、MFC到底是什么? 本人想做给一个网络管理方面的软件,谁能跟我讲讲这方面的原理么? 请问有谁知道如何在VB.net中使用DirectX? 求救:我在 JAVA 中用 TextField 输入文字时发现,在汉字方式下敲不了标点符号,而我用 VC 的 EDIT 却可以,为什么? 大虾帮帮忙,一个关于bpl的问题,十万火急!能给的分我都拿出来了 请问怎么截获对动态链接库的调用? 关于数据库的问题!我搞了几天拉!天啊!我不想学java拉!! 请问我在window98上写html,asp文件,需要安装那些软件,pws我已安装,其它还要什么 请问有谁知道如何在VC.net中使用DirectX? 一个关于realplayer的问题! 请问怎样记录程序运行时间呢,记得好像有一个函数.... ?求一道数学思想题 各位大虾,我想在DELPHI5.0中调用W9X下的超级终端中的传输命令来传输文件??? ■■请教不知怎么回事,我现在打开*.txt文件,WIN98系统提示框:windows不能发现sysexplr.exe,如何解决呀?请热心的C++同事解决■■ 请问有谁知道如何在.net中使用DirectX? 到那里学习SQL语言 关于树!他妈的树! 关于黄色网站的另外一个问题 请问在VB中能否实现COMBOX的自动保存功能? 如何include根目录的文件 大海诞生生命时间写作文用的,只要时间(几年前),准确的, 关于数学物理的1kg/m3=?g/cm31楼的好像答错了 圆中国梦走复兴路作文【800字】不要复制的 原始生命诞生在原始海洋中,所以地球上最早出现的是水生动物,这句话对吗?为什么? 15.5KN/m3等于多少g/cm3 500立方分米=( )立方米 原始生命诞生的重要标志是什么 我想要"古铜色"_(小麦色)皮肤``!该死的`!我的皮肤` 黑不黑` 黄不黄` 真不知道算什么` 我特想要小麦色(古铜色)的皮肤` 很性感又冷酷` 哎` 难道除了天生的之外` 就没有别的办法能使肤色变 共铸复兴路,同圆中国梦 为主题的作文 800字 某地强风的风速为20m/s,空气密度是p=1.3kg/m3,一风力发电机的有效受风面积为S=20m2,如经过风力发电机后风速变为12m/s 改风力发电机的效率为80% 则风力发电机的电功率多大 小麦色和古铜色哪个更好一点、更帅气一点.我是一个男生、不属于健将型皮肤颜色 我不要太粗犷的颜色啊、也不要太深太深的颜色、匀和一点的那种。就是追求的 健康肤色 、比常人稍稍深 500立方分米=()立方米 2升=()立方分米 360千牛换算成兆帕是多少?加力面积是0.00785平方米 某地风速为v=20m/s,设空气的密度为ρ=1.3kg/m³,如果通过截面面积S=20m²的风的动能全部转化为动某地风速为v=20m/s,设空气的密度为ρ=1.3kg/m³,如果通过截面面积S=20m²的风的动能全部转 请问这是古铜色还是小麦色? 细胞分裂的子细胞体积小,需要从周围环境中吸收营养,使()体积增大 跨经度最多的大洲和大洋是?扬沙、沙尘暴发生在什么季节?赤道为轴向南北方向有哪些气候类型.分布的特点? 比较1kg/m3和1g/cm3,谁的密度大 一个细胞分裂成两个新细胞后,体积很小,通过不断从周围环境中吸收(),并且转变成组成自身的物质,体积增大,即细胞()到一定大小,就进行细胞(). 赤道穿过大洲大洋 1kg/m3=0.001g/cm3怎么化过来的啊要仔细描述啊!本人不知道怎么换过来的?怎么1kg换g变小啊? 生命起源于原始海洋还是原始大气?为什么? 细胞分裂三次为什么是2^3将15N标记DNA的大肠杆菌培养在14N培养基中,经三次分裂后含15N的DNA占DNA总数的多少? 物理单位转换 1KWh=3.6×106J 1m/s=3.6km/h 1g/cm3=103kg/m3 1kg/m3=0.001g/cm31m/s=3.6km/h 如果是2m/s转化成km/s 怎么算呢? 与现代海洋、大气相比较,原始海洋和大气中之所以有利于生命的诞生,是因为( )A.含丰富的无机物、氧气和臭氧B. 含丰富的有机物、氧气和臭氧C.含丰富的无机物,没有氧气和臭氧D.含丰富 细胞分裂4到底多大为什么游侠的才1.4G 而游民的4.7G 1Kg/m3= g/cm3 1m/s= km/h 判断:细胞分裂产生的新细胞比原细胞小.( )判断:细胞分裂产生的新细胞比原细胞小.( )分裂后的细胞内DNA只有原细胞的一半.( )两个新细胞所含的遗传物质是一样的.( )分析说明 lng加气站就是气化站么? 是海洋生态系统的自动调节能力强还是森林生态系统调节能力强?为什么? 细胞分裂产生的新细胞与生长成熟的细胞,它们的细胞结构有哪些发生了变化? 海洋气候河湖对人类分别有什么作用 谁知道鲨鱼对于海洋生态的平衡所起的重要作用吗? 细胞只能有细胞分裂产生吗? 欧洲气候具有显著的海洋说特点请你分析一下哪些因素起了重要作用 海洋生态系统 森林生态系统谁自动调节能力强 细胞分裂形成的两个新细胞 相同,新细胞与原细胞的 也相同 细胞分裂时产生的子细胞与母细胞结构和功能相同吗?试着分析一下原因.今晚就要. 海洋生态系统 森林生态系统 自我调节能力哪个强最强的是不是生物圈? 将下面文字概括为表明海洋重要性的两个比喻句,每句不得超过12个字.大约在三十二亿年前,原始的生命在海洋里诞生.在海洋里,这些原始生命与大自然的搏斗中生存,发展,经过亿万年的进化,逐 在细胞分裂过程中,有的子细胞长到与母细胞一般大小时能继续分裂;而有的子细胞则发生变化,形成具有不同__________和__________的细胞,这种过程叫做____________ 森林生态系统和海洋生态系统那个调解能力更强 原始生命形成诞生的场所的原始大气,对还是错 一个细胞分裂5次后产生几个子代细胞 为何海洋有吸收二氧化碳的作用植物呼出二氧化碳也会吸收氧气,那么他的吸氧量是多大啊,听说一棵大树的吸氧一年才是6Kg啊?那么是不是海洋才是真正的贡献啊我想知道植物的贡献到底有多 48000牛顿换算成兆帕是多少 厄尔尼诺现象发生时,太平洋赤道地区的大洋环流与大气环流是怎样的. 把二氧化碳直接通入海底有什么影响 180牛顿换算等于多少兆帕 200牛顿换算等于多少兆帕 圣婴现象出现时太平洋赤道海区的大气是怎样流动的 海洋吸收二氧化碳"从大气中吸收二氧化碳,同时释放氧气,在这一点上,海洋有着和森林一样的作用.海洋仿佛一只巨大的二氧化碳沉淀池,目前已经储存了1500亿吨的碳;仅在去年一年,海洋就吸 生命的起源在海洋吗物种起源 描述正常年和厄尔尼诺年时赤道附近太平洋地区海水温度的分布特点,说出其上空大气环流的状况及对印度尼西亚和厄瓜多尔气候的影响 海洋中铁等元素的增加可使浮游植物增加,从而消耗大气中大量的二氧化碳,这有利于缓解( )这一环境问题. 海洋生命的起源和早期进化 关于地理厄尔尼诺现象 太平洋西岸气候变化! 作文——走复兴路 圆中国梦 800字.明天就要交了!是要一篇叙事文!明天就要交了啊! 最早的生命是在哪里诞生的,是海洋么》?为啥? 1kg/m3等于多少g/cm3 关于海洋吸收二氧化碳的问题,这是正确的吗?海洋可以吸收大量的二氧化碳,随着海洋生物种类的减少,吸收二氧化碳的能力逐渐增强,对于现在日益严重的温室效应应有所缓解.这是正确的吗?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn