说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

比Hive高效7倍 Facebook推新一代查询引擎Presto

HTML文档下载 WORD文档下载 PDF文档下载
Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。Facebook表示,该工具将于今年秋天以开源的形式与大家见面。

在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎Presto,在已有的250PB的庞大数据仓库上进行交互式分析。

据Martin Traverso工程师透露,有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前,我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多,Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用Presto来填补这方面的空白。

Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖MapReduce进行运行,所以随着年龄的上升,其在速度上已不能满足日益增长的数据要求。浏览一个完整的数据集可能要花费几分到几小时,这完全是不切实际的。

Traverso还表示,使用Presto进行简单的查询只需要几百毫秒,即使是非常复杂的查询,也只需数分钟即可完成,它在内存中运行,并且不会向磁盘写入。


虽然看起来Presto如同Facebook版的Cloudera Impala SQL查询引擎,或与Hortonworks在Stinger项目中所做的事情相似,但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不会与其他商业产品进行竞争,但它会很快让大数据行业产生不小的震动。并且Facebook打算在今年秋天以开源的形式发布Presto。

Facebook的工程经理Ravi Murthy表示,随着用户量地不断增长,数据仓库也在快速增长,它比四年前要大4000倍。Murthy 也表示,在接下来几年,数据将会达到艾字节。因此,为了适应这种数据规模,我们不得不重新考虑许多东西。

Presto则是其中之一,除了提高查询速度,在CPU使用效率上,这个引擎比Hive高效7倍。另外一个正在进行的项目是缩减Facebook数据中心的分析数据空间。

对于Facebook最新推出的查询引擎Presto,微博上的各位大神又有哪些看法呢?

原EMC中国研究院大数据实验室负责人大数据皮东:Facebook最新的交互式大数据查询系统Presto,类似于Cloudera的Impala和Hortonworks的Stinger,解决Facebook迅速膨胀的海量数据仓库快速查询需求。Facebook针对Exabyte规模数据正在开发新一代大数据系统,Presto是其中的数据仓库交互查询系统,应该还有海量存储系统。在这个级别,很多设计需要考虑!

新浪CTO兼联席总裁许良杰Jack:社交网络和社会化媒体催生了真正的大数据(Big Data)平台。新浪微博也不例外……

英国利兹大学计算机及语言学研究员,搜索项目博士后研究员vinW:1. presto秋季会开源;2.比hive快七倍;3.基于内存

Launch_Bruce:FaceBook不是搜索引擎,对实时性的要求更高,即使当初推出Hive,也只能是权宜之计。这属于Hadoop的基因,Hadoop必将会让很多没有深度思索盲目上马的项目最后举步维艰。但是显然Hadoop成功的生态系统也会害了不少人。

TeslaElon:加油!Big Data会衍生出很多商业机会。尤其是与最大的电商平台阿里巴巴以及最大的视频平台YOKU潜在的合作值得期待。另外Sina投资了不少微博上的火爆应用,很多机会,后面看Sina研发和管理以及销售如何做好。

搬运大数据的亨利:大约五年以前做大数据分析,我们的MPP产品就已经有这些策略了。当时,最大的问题是大数据在互联网,但这些明星企业不爱花钱购买只爱造轮子。还是电信客户好,他们愿意花钱采购而不是造轮子。

英文来自:gigaom.com

聚合数据资产,推动产业创新——2014中关村大数据日看大数据变现 拥抱开源:微软Windows 10宣布全面支持AllJoyn技术 改变App领域发展!友盟推“数据工场”战略,两款新品亮相 Cloudera正式登陆中国市场:与英特尔携手共助本土企业淘金大数据 Go 1.4正式发布 支持Android开发 【特别提醒】2014中国大数据技术大会门票全面告罄 不接受现场购票 累计4000万美元 Qualcomm在华投资5家公司 支持Android、WatchKit开发,全新RubyMotion 3面世! 快速开发移动医疗App!开源框架mHealhDroid 2014CVW﹒产业互联网大会解密未来20年 Nimble VR的收购与一封来自友商的感言 Google Earth API将在2015年12月彻底关闭 AR、美颜、机器人:计算机视觉库几乎无所不在 不激增,无爆收,年度最佳手游为80 Days带来了什么? 《近匠》机智云CEO黄灼:跨越智能硬件的“鸿沟” 智能手机≠智能家居!我们要的究竟是什么? 亚信大数据事业部总经理张灏:打通各行业数据壁垒 让大数据变现畅通无阻 Web App和Native App不是生死之争,而是可以和平共处! 微信之父张小龙说微信坚持“去中心化”,这样真的好吗? 亚信CFO武军谈进军海外市场成功经验 前瞻性思维是开路先峰 Swift,任重而道远! DevOps系统的变迁 玩转Docker镜像 “扫描建模”速建AR应用 Vuforia 4.0 SDK更新 硅谷里的外星人:纵观Reddit十年风雨路 不见不散 Cloud Foundry Meetup活动将首次走进杭州 独立开发者:新手做2D手游该用哪些工具? 求安全化危机!Uber研发生物识别技术、聘请前亚马逊运营 JavaScript社区开发者调查:服务端JS盛行 AngularJS使用者最多 去中心化、去中介化,微信商业化路径清晰了吗? 微信企业号认证简化了,你造吗? 有谁装过gtk的包吗,安装期间说找不到libpng包,请问,哪儿能找到这个库函数 关于程序时间锁的问题 下载 急:为什么我不能用wstring类型??? 如何编写拨号上网的程序?请指教! 能告诉我是哪里错了吗