说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

Cloudera透露Impala发行版新功能及开源计划

HTML文档下载 WORD文档下载 PDF文档下载
前有Drill、Dremell,后有Blobstore,所有的巨头都在肯时时SQL这块“硬骨头”。Hadoop创业公司Cloudera在今年10月也宣布Impala项目,对比Hive SQL查询速度提升3~90倍。日前,Impala项目经理Justin Erickson在博客中公布了Impala将要实现的功能、发新版时间表以及开源计划。CSDN对其进行了摘译。

【CSDN编译】Cloudera公布了Impala的发布计划以及开源计划。关于发行版,Cloudera表示当下主要工作是完善Impala在生产环境中的功能和稳定性,包括:

图:Impala的特性

  1. 增加文件格式支持——包括Avro格式和LZO压缩的文本格式。
  2. 增加操作系统支持——在CDH4版上支持对红帽企业版、CentSO 5.7、Ubuntu、Debian、SLES、Oracle Linux。
  3. 棘手问题(Straggler handling)——为实现最快的响应时间,Impala需要完成更多的工作让服务器加速,同时降低服务器速度减慢的情况。在大型的集群上,经常出现巨大的性能波动,体现在节点变得缓慢或者磁盘损坏。
  4. JDBC驱动——支持Java应用连接Impala接口。在Apache Hive的JDBC驱动基础上,针对Java应用提供一套通用的SQL接口,同时支持Impala和Hive。
  5. 数据定义语言(DDL)——支持用户通过Impala在Hive元数据共享区创建表。从Impala beta 0.3版开始,你通过Impala进行查询前,首先需要通过Hive建立表。
  6. 更快、更大、更高的内存效率——通过分割哈希连接,Impala可以分割第二个表,所以在整个集群所有的节点上只有一个表的副本被分割。目前,Impala通过与每个节点的内存做join后存储第二个表。Impala将利用表的统计信息来制定策略保证每个请求达到最高性能。
  7. 更快、更大、更多的内存聚合效率——通过分布的本地存储分担预聚集(pre-aggregation)的工作,这样就能减少协调节点(coordinator node)的内存消耗。
  8. 大面积的SQL性能最优化——通过扩展低级虚拟机(LLVM)代码生成,更多的Impala的SQL功能和嵌入,让返回结果延迟降到最低。
  9. 元数据自动刷新——对于Impala的请求实现表和数据无缝的可用性,不存在对Impala手动刷新的问题。
  10. 新的Trevni桶状文件格式——通过类似Google Dremel的ColumnIO格式——Trevni,Impala可以获得更高的性能。对于一个Hadoop用户而言,任何处理框架都可以访问Trevni格式的数据,就像今天访问Avro和顺序文件一样。

关于发行版

Justin 表示,暂定的计划是Impala 1.0通用版将在2013年Q1发布。在beta阶段,依然每2-4周进行更新。这些更新包括提升稳定性以及以上列出的各种功能。比如,两个最常见的问题、增加操作系统支持等等。

关于开源进程

Justin表示,目前Cloudera正在对核心代码以及早期beta版用户(包括Capgemini金融服务、Karmasphere、MicroStrategy、Pentaho、Qlikview和Tableau等,他们已经在Impala上做了几个月的实际产品测试。)的反馈的问题进行追踪,需要时间进行处理才能公开。并重申:

  • 最新的源码库——未来会一直提供更多最新的代码
  • 透明的问题追踪——Jira(一款集项目计划、任务分配、需求管理、错误跟踪于一体的商业软件。)将会服务Impala。(编译/包研 责编/仲浩)

原文:Cloudrea

备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘