说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

MongoDB Map Reduce速度提升20倍的优化宝典

HTML文档下载 WORD文档下载 PDF文档下载
MongoDB提供的Map Reduce非常灵活,对于大规模数据分析也相当实用。尽管MongoDB 2.4中Map Reduce有了大幅改进,但是相对来说其性能还是有很大的提升空间。本文就来尝试找出让Map Reduce速度最大化提升的方法。

自从MongoDB被越来越多的大型关键项目采用后,数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析(这都利用到了Hadoop),因为这些方法往往需要大规模的数据传输,而这些成本相当昂贵。

MongoDB提供了2种方式来对数据进行分析:Map Reduce(以下简称MR)和聚合框架(Aggregation Framework)。MR非常灵活且易于使用,它可以很好地与分片(sharding)结合使用,并允许大规模输出。尽管在MongoDB v2.4版本中,由于JavaScript引擎从Spider切换到了V8,使得MR的性能有了大幅改进,但是与Agg Framework(使用C++)相比,MR的速度还是显得比较慢。本文就来看看,有哪些方法可以让MR的速度有所提升。

测试

首先我们来做个测试,插入1000万文档,这些文档中包含了介于0和100万之间的单一整数值,这意味着,平均每10个文档具有相同的值。

> for (var i = 0; i < 10000000; ++i){ db.uniques.insert({ dim0: Math.floor(Math.random()*1000000) });}> db.uniques.findOne(){ "_id" : ObjectId("51d3c386acd412e22c188dec"), "dim0" : 570859 }> db.uniques.ensureIndex({dim0: 1})> db.uniques.stats(){        "ns" : "test.uniques",        "count" : 10000000,        "size" : 360000052,        "avgObjSize" : 36.0000052,        "storageSize" : 582864896,        "numExtents" : 18,        "nindexes" : 2,        "lastExtentSize" : 153874432,        "paddingFactor" : 1,        "systemFlags" : 1,        "userFlags" : 0,        "totalIndexSize" : 576040080,        "indexSizes" : {                "_id_" : 324456384,                "dim0_1" : 251583696        },        "ok" : 1}

这里我们想要得到文档中唯一值的计数,可以通过下面的MR任务来轻松完成:

> db.runCommand({ mapreduce: "uniques", map: function () { emit(this.dim0, 1); }, reduce: function (key, values) { return Array.sum(values); }, out: "mrout" }){        "result" : "mrout",        "timeMillis" : 1161960,        "counts" : {                "input" : 10000000,                "emit" : 10000000,                "reduce" : 1059138,                "output" : 999961        },        "ok" : 1}

正如你看到的,输出结果大约需要1200秒(在EC2 M3实例上测试),共输出了1千万maps、100万reduces、999961个文档。结果类似于:

> db.mrout.find(){ "_id" : 1, "value" : 10 }{ "_id" : 2, "value" : 5 }{ "_id" : 3, "value" : 6 }{ "_id" : 4, "value" : 10 }{ "_id" : 5, "value" : 9 }{ "_id" : 6, "value" : 12 }{ "_id" : 7, "value" : 5 }{ "_id" : 8, "value" : 16 }{ "_id" : 9, "value" : 10 }{ "_id" : 10, "value" : 13 }...

下面就来看看如何进行优化。

使用排序

我在之前的这篇文章中简要说明了使用排序对于MR的好处,这是一个鲜为人知的特性。在这种情况下,如果处理未排序的输入,意味着MR引擎将得到随机排序的值,

基本上没有机会在RAM中进行reduce,相反,它将不得不通过一个临时collection来将数据写回磁盘,然后按顺序读取并进行reduce。

下面来看看如果使用排序,会有什么帮助:

> db.runCommand({ mapreduce: "uniques", map: function () { emit(this.dim0, 1); }, reduce: function (key, values) { return Array.sum(values); }, out: "mrout", sort: {dim0: 1} }){        "result" : "mrout",        "timeMillis" : 192589,        "counts" : {                "input" : 10000000,                "emit" : 10000000,                "reduce" : 1000372,                "output" : 999961        },        "ok" : 1}

现在时间降到了192秒,速度提升了6倍。其实reduces的数量是差不多的,但是它们在被写入磁盘之前已经在RAM中完成了。

使用多线程

在MongoDB中,一个单一的MR任务并不能使用多线程——只有在多个任务中才能使用多线程。但是目前的多核CPU非常有利于在单一服务器上进行并行化工作,就像Hadoop。我们需要做的是,将输入数据分割成若干块,并为每个块分配一个MR任务。splitVector命令可以帮助你非常迅速地找到分割点,如果你有更简单的分割方法更好。

> db.runCommand({splitVector: "test.uniques", keyPattern: {dim0: 1}, maxChunkSizeBytes: 32000000}){    "timeMillis" : 6006,	"splitKeys" : [		{			"dim0" : 18171		},		{			"dim0" : 36378		},		{			"dim0" : 54528		},		{			"dim0" : 72717		},…		{			"dim0" : 963598		},		{			"dim0" : 981805		}	],	"ok" : 1}

从1千万文档中找出分割点,使用splitVector命令只需要大约5秒,这已经相当快了。所以,下面我们需要做的是找到一种方式来创建多个MR任务。从应用服务器方面来说,使用多线程和$gt / $lt查询命令会非常方便。从shell方面来说,可以使用ScopedThread对象,它的工作原理如下:

> var t = new ScopedThread(mapred, 963598, 981805)> t.start()> t.join()

现在我们可以放入一些JS代码,这些代码可以产生4个线程,下面来等待结果显示:

> var res = db.runCommand({splitVector: "test.uniques", keyPattern: {dim0: 1}, maxChunkSizeBytes: 32 *1024 * 1024 })> var keys = res.splitKeys> keys.length39> var mapred = function(min, max) { return db.runCommand({ mapreduce: "uniques", map: function () { emit(this.dim0, 1); }, reduce: function (key, values) { return Array.sum(values); }, out: "mrout" + min, sort: {dim0: 1}, query: { dim0: { $gte: min, $lt: max } } }) }> var numThreads = 4> var inc = Math.floor(keys.length / numThreads) + 1> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }min:0 max:274736min:274736 max:524997min:524997 max:775025min:775025 max:{ "$maxKey" : 1 }connecting to: testconnecting to: testconnecting to: testconnecting to: test> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }{         "result" : "mrout0",        "timeMillis" : 205790,        "counts" : {                "input" : 2750002,                "emit" : 2750002,                "reduce" : 274828,                "output" : 274723        },        "ok" : 1}{         "result" : "mrout274736",        "timeMillis" : 189868,        "counts" : {                "input" : 2500013,                "emit" : 2500013,                "reduce" : 250364,                "output" : 250255        },        "ok" : 1} {        "result" : "mrout524997",        "timeMillis" : 191449,        "counts" : {                "input" : 2500014,                "emit" : 2500014,                "reduce" : 250120,                "output" : 250019        },        "ok" : 1}{        "result" : "mrout775025",        "timeMillis" : 184945,        "counts" : {                "input" : 2249971,                "emit" : 2249971,                "reduce" : 225057,                "output" : 224964        },        "ok" : 1}

第1个线程所做的工作比其他的要多一点,但时间仍达到了190秒,这意味着多线程并没有比单线程快!

使用多个数据库

这里的问题是,线程之间存在太多锁争用。当锁时,MR不是非常无私(每1000次读取会进行yield)。由于MR任务做了大量写操作,线程之间结束时会等待彼此。由于MongoDB的每个数据库都有独立的锁,那么让我们来尝试为每个线程使用不同的输出数据库:

> var mapred = function(min, max) { return db.runCommand({ mapreduce: "uniques", map: function () { emit(this.dim0, 1); }, reduce: function (key, values) { return Array.sum(values); }, out: { replace: "mrout" + min, db: "mrdb" + min }, sort: {dim0: 1}, query: { dim0: { $gte: min, $lt: max } } }) }> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }min:0 max:274736min:274736 max:524997min:524997 max:775025min:775025 max:{ "$maxKey" : 1 }connecting to: testconnecting to: testconnecting to: testconnecting to: test> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }...{         "result" : {                "db" : "mrdb274736",                "collection" : "mrout274736"        },        "timeMillis" : 105821,        "counts" : {                "input" : 2500013,                "emit" : 2500013,                "reduce" : 250364,                "output" : 250255        },        "ok" : 1}...

所需时间减少到了100秒,这意味着与一个单独的线程相比,速度约提高2倍。尽管不如预期,但已经很不错了。在这里,我使用了4个核心,只提升了2倍,如果使用8核CPU,大约会提升4倍。

使用纯JavaScript模式

在线程之间分割输入数据时,有一些非常有趣的东西:每个线程只拥有约25万主键来输出,而不是100万。这意味着我们可以使用“纯JS模式”——通过jsMode:true来启用。开启后,MongoDB不会在JS和BSON之间反复转换,相反,它会从内部的一个50万主键的JS字典来reduces所有对象。下面来看看该操作是否对速度提升有帮助。

> var mapred = function(min, max) { return db.runCommand({ mapreduce: "uniques", map: function () { emit(this.dim0, 1); }, reduce: function (key, values) { return Array.sum(values); }, out: { replace: "mrout" + min, db: "mrdb" + min }, sort: {dim0: 1}, query: { dim0: { $gte: min, $lt: max } }, jsMode: true }) }> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) ? 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) ? MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }min:0 max:274736min:274736 max:524997min:524997 max:775025min:775025 max:{ "$maxKey" : 1 }connecting to: testconnecting to: testconnecting to: testconnecting to: test> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }...{         "result" : {                "db" : "mrdb274736",                "collection" : "mrout274736"        },        "timeMillis" : 70507,        "counts" : {                "input" : 2500013,                "emit" : 2500013,                "reduce" : 250156,                "output" : 250255        },        "ok" : 1}...

现在时间降低到70秒。看来jsMode确实有帮助,尤其是当对象有很多字段时。该示例中是一个单一的数字字段,不过仍然提升了30%。

MongoDB v2.6版本中的改进

在MongoDB v2.6版本的开发中,移除了一段关于在JS函数调用时的一个可选“args”参数的代码。该参数是不标准的,也不建议使用,它由于历史原因遗留了下来(见SERVER-4654)。让我们从Git库中pull最新的MongoDB并编译,然后再次运行测试用例:

...{         "result" : {                "db" : "mrdb274736",                "collection" : "mrout274736"        },        "timeMillis" : 62785,        "counts" : {                "input" : 2500013,                "emit" : 2500013,                "reduce" : 250156,                "output" : 250255        },        "ok" : 1}...

从结果来看,时间降低到了60秒,速度大约提升了10-15%。同时,这种更改也改善了JS引擎的整体堆消耗量。

结论

回头来看,对于同样的MR任务,与最开始时的1200秒相比,速度已经提升了20倍。这种优化应该适用于大多数情况,即使一些技巧效果不那么理想(比如使用多个输出dbs /集合)。但是这些技巧可以帮助人们来提升MR任务的速度,未来这些特性也许会更加易用——比如,这个ticket 将会使splitVector命令更加可用,这个ticket将会改进同一数据库中的多个MR任务。

英文原文:How to speed up MongoDB Map Reduce by 20x

辞旧迎新 老牌游戏开发商的移动进化之路 iSuppli:硬盘市场持续萎缩 大数据应用成重要市场 全球最大校园Hackathon:失败后,你能学到什么? 走进Evasi0n,越狱黑客如何拿到iOS权限 提升服务扩展性和冗余的八个编码方向 分析数据预测未来?数据挖掘绝不是大公司的专利 揭秘LinkedIn数据科学家如何工作 为什么响应式设计对SEO有好处? SpaceX团队:想登陆火星吗?学好C++吧 可穿戴设备:越来越清晰的苹果iWatch 苹果设计师:开发者们的应用图标设计对了吗? AWS兴起之路:尚未成功 仍需努力 John Carmack:我们为什么不开发Linux游戏 最具创新力公司50强:耐克居首 Web如何成为另一个应用商店 Adobe发布Photoshop1.0.1源代码 大数据时代正在到来 微软CFO:我们的移动战略没有“B计划” TIOBE 2013年2月编程语言排行榜:历经十月Java重返第一 为让用户亲身体验产品 谷歌年底或开零售商店 谷歌推Chrome API支持HTML5实现本地离线数据存储与同步 Ubuntu开发者预览版将于月底开放下载 因Java漏洞,Facebook遭受恶意软件攻击但未泄密 HTML5预测 取代本地App将成为可能 2013年最佳实习企业:微软仅居第三 助力响应式设计:Adobe发布最新HTML5工具包 VMware控告Hortonworks恶意挖角 2013年大数据真谛:实时分析与批量处理 微软招聘信息证实Windows Blue项目正在推进 研究人员正开发永不会崩溃的计算机 Google:开发者应尽早进入可穿戴式计算 空值可以用NVL判断,请教空格如何判断呢?非常感谢! 感情问题,我该怎么办? 请教各位高手,关于使用JSP与mysql的登录问题!急!急!急!急!急! 这里有一个数据库以外的问题,大家帮忙看一下??? 请教:listbox如何通过双击选中项,删除该项,并添加到另一个listbox呢? 远程备份sqlserver2000数据库问题! 》》》高手来看看这个问题,编译器错误,搞不懂了。《〈〈 如何使用標尺 请问在stringgrid控件中可否一次在不同的cell中填入不同颜色的文字? 120分求解!! "模态"窗体的全屏与非全屏切换 用VC做DCT变换的同仁多吗? 急!急:如何使用链接来调用运行本地应用程序(exe文件)?请高手指教,多谢! 如何将一个ip捆绑多个域名,并且将域名与虚拟主机一一对应?这样作dns或路游等设置较普通设置有何异样??请高手指点,谢谢!!! 如何在一个win2k server的服务器上创建一个MSMQ队列! 请大家帮忙看一下,这个问题怎么办???? 请问vb里面的直方图用哪个控件,怎么画? vc和java,哪一个更有钱途? 請問哪里有條碼字體下載??? 看<windows程序设计>(第五版)章节上有什么顺序吗? 关于windows 可执行文件的结构问题! 如何才能得知当前路径?比如VB的App.Path? 能否向asscess添加图像字段,如果可以,那么要怎样写入和读出,请各位关注 谁知道用代码在treeview web控件中,添加node的方法? 关于金山公司的词霸那样的弹出菜单怎么做? 我从哪里可以买到powerbuilder8的多媒体教学光盘?thanks! 哪伟大侠有GB2322的汉字内码表啊? 关于对眼球经济的探讨(请各联盟盟主来看看!!!) 错在哪里? 如何才能实现将ListView的一列拖到另外一列的位置? 在VC#中订阅消息要手工输入,为什么不做成VB一样?有简单方法吗? 请问网吧管理软件是如何使屏幕变暗,并显示自己的对话框,禁止其他操作的? 第一次用VB,请指教 多线程中如何申请一块存储空间 Code Guard是什么东东?在线等待,马上给分! 这个错误是什么原因啊? 请问怎样获得默认打印机名! 哪位大虾能给小弟一点有关汉诺塔问题的资料呀?! ShellExecute(this.Handle,null,"c:\\",null,null,1)问题再探 PB6.5如何实现选择文件路径对话匡?急!在线等待。 为什么下面的enum定义要有一个方括号? dot menu是什么意思? 请教大侠为什么(333)这句不执行 如何将olecontainer载入的word文件全部显示,而不只显示第一页? 简单问题! 高手帮忙!如何通过服务器来自动查找、替换客户端文件 为何timer控件失效? @这个字符在C#中有何具体意义?不解 如何将sql server的检查约束延迟到Commit时 ado连接sql库问题 为何无法ping自己的地址呢? 描写神态的片段 北极因纽特人现在还住在冰屋么? 怎么才能看出玻璃杯是热水杯还是冷水杯呢 描写下棋的片断400字左右, 爱斯基摩人住的冰屋里面温度是多少啊? 水的比热容比沙的高,也就是说水在同质量升高(降低)同温时,吸收(放出)的能热量比沙大,为什么沙在一天中变化更大(我的想法是沙的比热容更大) 哪一种食品保鲜袋好?求介绍啊? 有关下棋的片段描写就10分钟快点来个RT 冬天,因纽特人喜欢就地取材住冰屋到底对还是错 各位打扰下,哪一种食品保鲜袋好? 什么东西里含有花青素?列举各种含有花青素的东西 “220v 100w”灯泡正常发光多少小时消耗1度电.详述快 地球重要的元素与物质是什么?同上 一个描写人物神态的好片段 哪些食物含丰富的的花青素? 设函数f(x)的定义域为正实数,且有1.f(1/2)=1 2.对任意实数x、y都有f(xy)=f(x)+f(y) 3.f(x)为减函数1)求f(1/4)、f(1/8)、f(1)、f(2)、f(4)的值2)解不等式;f(-x)+f(3-x)≥-2 怎么检测食物中是否含有花青素 什么食品里含有花青素? 速求:f(x)是奇函数,且满足f(x+4)=f(x),又当0≤x≤1时,f(x)=x,则f(7.5)的值为_____ 什么食物含花青素 九年级物理!急啊!第一题.是选A还是C?我感觉A是蒸发吧. 什么东西花青素最多? 哪些食物富含花青素? 爱斯基摩人的冰屋是通过防止什么阻止热传递,从而起到保温防寒的 一个木块放在恰好装满水的烧杯中漂浮,溢出水3g,则浮力为0.3N 地球自转使得地面上的物体都要和它一起转,带着空气转吗?那没有空气的外太空的空间也带着转吗?我的意思是说空间飞船0速的时候也带着一起转吗? 因纽特人的冰屋问题因纽特人能否在屋内生火做饭?为什么?因纽特人用水作为砌砖的“泥”,这是利用了水的那个性质?用一块湿布,放到冰箱冷冻室的一块肉或鱼上边,过一会儿能否用这块布把 只求判断答案对错傍晚(6点左右)的电灯没有午夜(12点)的电灯亮,为什麽?我的回答:应为电线有电阻,傍晚时每户人家用大量的电(照明等),电线分了较多的电压(串联分电压),而午夜 近地面大气和地球大气地面辐射给近地面大气后,近地面大气会逆辐射给大地,有一些则会层层上传,是上传给宇宙空间还是地球大气? 爱斯基摩人 冰屋 PE聚乙烯食品保鲜袋安全吗? 什么食物含花青素多 五角硬币和某种汞盐置换反应,五角硬币表面变成了银白色,且表面有点滑.请问是什么汞盐,硬币现在有毒吗硬币的银白色洗不掉.汞是液体,但是为什么现在没有液体 为什么地球不是圆球 花青素是什么东西 电感与什么有关?关于变压器的电感的测量.如果我在一个变压器的初级测它的电感,次级一头的线圈会对这个测量产生影响吗?谢谢!我不拆开变压器,测量初级线圈的电感,再测量次级线圈的电感 如果地球不是圆球体会出现什么情况?是立方体或一个平面 描写花的段落.1.总写,不能只写一种.2.秋天的,盆栽的. 变压器二次则分别带纯电阻,纯电容,电阻和电感,电阻和电容的无功功率是从哪里吸取的? 判断地球不是正圆球的依据是什么? 描写花的的段落 如何使用QJ44型双臂电桥测量变压器绕组的直流电阻视频教学 【【【写一语文小片段】】】谈实验对自然科学的重要性议论文(短篇就好)自拟论点,摆一个具体的事实,注意议论文的三步骤:提出问题,分析问题,解决问题.注意:材料要确凿, 结论不 描写花的片段三行以上!三行三句!11 动作的描写片段要快. 证明:在纯电阻电路中,串联电路上消耗的总功率P=UI等于各个电阻上消耗的热功率 谁知道有关花的描写片段? 描写动作的小片段 _______________________________________________________________________________ 写一个片段假如你只有三天光明,你将如何使用你的眼睛? 描写花的片段, 描写人物动作的片段小说里的书里的还要有赏析的 写一个语文段落请写一个含哲理的语段,阐明人和人之间如何创造出美好的境界,要用上“尊重”、“关爱”、“信赖”3个词.要求100~200个字! 帮我看看我怎么错了宇航员在某一星球表面上的某高处,沿水平方向抛出一小球.经过时间t,小球落在星球的表面,测得抛出点与落地点之间的距离为L.若抛出时初速度增大到原来的2倍,则抛出点 求描写人物动作的片段!不要自己写的...就是在书中摘出的...再写下是哪本书中的... 求写语文片段1.写人的.2.写景的.3.写事的.麻烦你们 第6题 描写动作的段落 写一个语文100字小片段在你的生活中一定有深深感动过你的人,那就请你介绍其中最让你感动的那个人吧.要写出真情实感. 北极因纽特人为什么住冰屋 准备好气球2个,塑料杯《或者玻璃杯》1个,热水. 动手做 1.把气球吹满气并且绑紧.2.向杯中倒入半杯热水《约70度》3.热水在杯中停留20秒后,把水到出来.4.立刻将杯口紧密的倒扣在气球上.5.轻轻
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘