说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

一网打尽13款开源Java大数据工具,从理论到实践的剖析

HTML文档下载 WORD文档下载 PDF文档下载
Java Code Geeks联合创始人Byron Kiourtzoglou近日发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。

大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。

事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?真实的答案就是“如你所想的那么大”!

那么为什么会产生如此之大的数据集?因为当今的数据已经无所不在并且存在着巨大的回报:收集通信数据的RFID传感器,收集天气信息的传感器,移动设备给社交网站发送的GPRS数据包,图片视频,在线购物产生的交易记录,应有尽有!大数据是一个巨大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。

然而大数据的含义绝不只与体积相关,因为大数据还可以用于寻找新的真知、形成新的数据和内容;我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活,以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因:Volume(体积)、Variety(多样)、Velocity(效率)以及Veracity(Value,价值),也就是大数据的4V。下面将简述每个特性以及所面临的挑战:

1. Volume

Volume说的是一个业务必须捕获、存储及访问的数据量,仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没,轻易的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需要被组织、防护(窃取)以及分析。

2. Variety

世界上产生的数据有80%都是半结构化的,传感器、智能设备和社交媒体都是通过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据,举个例子:存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理,我们需要在数据储存和分析上面进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型,使用大数据技术却可以轻松的储存和分析。

3. Velocity

Velocity则需要对数据进行近实时的分析,亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需要尽可能的快于你竞争对手。另外一个例子是时间敏感性数据的处理,比如说捕捉罪犯,在这里数据必须被收集后就完成被分析,这样才能获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构使用近实时的方式对其分析。

4. Veracity

通过分析数据我们得出如何的抓住机遇及收获价值,数据的重要性就在于对决策的支持;当你着眼于一个可能会对你企业产生重要影响的决策,你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助,数据的真实性和质量才是获得真知和思路最重要的因素,因此这才是制定成功决策最坚实的基础。

然而当下现有的商业智能和数据仓库技术并不完全支持4V理论,大数据解决方案的开发正是针对这些挑战。

下面将介绍大数据领域支持Java的主流开源工具

1. HDFS

HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

2. MapReduce

Hadoop MapReduce是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

3. HBase

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

4. Cassandra

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

5. Hive

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。

7. Chukwa

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

8. Ambari

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

10. Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

  • 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
  • 聚集:收集文件并进行相关文件分组。
  • 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
  • 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

13. HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:

  • 提供一个共享模式和数据类型机制。
  • 提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
  • 为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

原文链接: What is Big Data – Theory to Implementation (编译/仲浩 审校/包研)

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名!

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加!

Sony开放SmartWatch 支持第三方定制固件 甩啦甩啦!Apptopia帮开发者在线买卖App所有权 聚焦全球移动市场:印度,这块肥肉不太肥 Google决定明年一月份停止对Chrome Frame支持与更新 你应该关注的几个Eclipse超酷插件 华为王丰:FusionCube打造下一代融合一体机 上海云人联合创始人吴朱华:中国人也能做出最好的实时数据库产品 Facebook RSS替代Google Reader?或因其社交属性失败 让这么多国外开发者如此兴奋,iOS 7到底好在哪里? Web开发中那些不招人“待见”的功能 最好的超级计算机在中国 为开发者提供的10款Web应用程序 5000万次下载:HandyGames如何征服Google Play? 红帽大战Ubuntu:750小时免费企业版红帽套餐即将登陆AWS EMC Sanjay Mirchandani:92%虚拟化,使更少IT人拥有更大交付能力 从NSA携谷歌、微软等9家名企监控用户行为看数据安全 【专访间】新科兰德创始人左磊:我们的“卖点”是“数据弹药” 甲骨文公司宣布推出最新Java EE 7 10款最佳CSS/jQuery开源图片说明 创业者应避免对投资者说的五句话 直接拿来用!最火的iOS开源项目(二) 西部数据Pat Wilkison:云计算市场是创新热点 猎豹浏览器发布手机版:PM谈开发理念 成为伟大开发者的“九步曲” 使用GPU构建更便宜的Google神经网络 Facebook与Yahoo!的“火花”:系统间实时数据流管理工具 视金钱如粪土?Yahoo!又要买了,梅姐的算盘是这样打的 MySQL手册不再遵循GPL协议:MySQL走向闭源前兆? 扁平化设计会扼杀人们的创造力吗? 又一巨头涉足移动视频分享领域:传雅虎欲收购短视频应用Qwiki 史上最牛:主要靠三消游戏IPO King也许会是第一家 利用C# 读取系统当前进程的出现问题,帮忙!! 请教高手:怎样在一个窗口里能够输入文本文件(按回车键) 另一个窗口显示出同样的文本 高手在何方 (大力请进)sql字符串处理的问题 上哪能下到exchange 2000,下到马上给分! ado问题? 数据迁移问题??? 怎么把列名选出来? [在线求助]:有什么好的方法可以使得鼠标放上有链接的地方状态栏不显示真实地址? 高手在哪!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 各位大哥﹐何為微创软件开发管理﹖﹖﹖﹖ 3com switch 3300 xm 有网管的功能吗? 关于窗口大小的问题,快来捡分~~~ 为什么2001年前的提问的问题、得分的问题、信誉分变化纪录都不见了。 无法在人才频道上提交简历。。。 请问:wsad4支持滚轮鼠标的插件哪里有下载??? 自动锁定计算机? 请问如何终止一个正在运行的应用程序 无法在人才频道上提交简历。。。 后面数据库为ms sql server2000的时间问题? DoEvents 怎么用?(不好意思,只有这么多分了!) CSDN真让我失望,大家都喜欢回答无聊的问题(不要回复) jdbc中LIKE条件如何使用prepareStatement? 请问,如果想报考系分的话,需要先过高程吗? 请问怎么把Excel形式的表结构导入到Oracle … 请问数据窗口中如何自动记录资料修改的帐户? 我倒要看看谁有本事让javac输出这样的信息? ADSL 可以直联吗? linfeng1216 (林枫) 请来领分。 在java中的暴露事件如何处理? 求PowerDesigner电子书籍资料!急! 有关_SERVER["HTTP_CONNECTION"] 两个窗体 带有setup程序和一堆代码的电子书怎么看? 这个web控件谁能介绍的详细一点 DCOM的配置问题 三国经典故事(女性,18岁以下者勿进) TIME_WAIT问题(100分!!!) linfeng1216 (林枫) 请来领分。 求C++Test2.1的license 我在用ASP.NET编程,请问如何让Datagrid的head显示两行,并且可以合并单元格。在线等 我的程序这样写对不对? 表格宽度的问题! linfeng1216 (林枫) 请来领分。 履约费小计=履约合同费1+履约合同费2 计算问题。 问问unix下进程的问题 javascript中的函数互相调用? 为了我们的生殖健康,坚决反对婚前性行为!!---人类生殖健康的天敌:支原体感染,不是艾滋的艾滋! 大家说说我该不该向这个MM表达? Marshal 问题求救 linfeng1216 (林枫) 请来领分。 T细胞功能检测都用什么实验 一个正方体水池的表面积是80平方分米,缸高16厘米,水原来的高是8厘米正方体水池放入石块后,水深上升到12厘米,求这个石块的体积越简便越好 《咏雪》一文中用哪两句来比喻大雪纷纷的 研究发现,有一种药物可使细胞不能合成糖蛋白上的糖侧链,那么这种药物主要作用于哪种细胞器为什么是内质网而不是核糖体? 旗杆外部没有旗绳为什么有的旗杆外没有旗绳,而转轮在旗杆内部,也能升旗.这是怎么回事 夜雨寄北和咏雪用什么和什么来比拟大雪纷纷 丑的读音和意思? 一道数学问题,详见问题补充.甲圆柱形容器的底面半径是乙圆柱形容器底面半径的2倍(容器直立放置).现以相同流量同时向这两个空容器内注入水,经过一定的时间,甲、乙两个容器内水面的 英语翻译1他们以勇敢为荣耀(honour)2他们用暴力证明自己勇敢(violence) 燕滨扶正胶囊药理学功能实验报告书中小鼠脾细胞数IGM-PFC的影响是什么意思? 辨别古文字还有下面的小字 富士山是活火山吗?什么时候喷发?周期是多少?分析一个地区的地貌特征,要从哪些方面考虑? 活火山是什么 小明看到生旗时旗杆上的旗子迎风飘扬,猜想在气球下面系一面旗子,当气球升到空中以后,如果刮起了风,气球下面的旗子也会飘起来吧!于是他动手做实验发现旗子并不会飘起来,他仍然下垂.你 细胞分裂使细胞趋向专门化,提高了机体生理功能的效率这句话为什么是错的? 英语翻译正在设计一个请帖,求 "让爱起航" 这四个字的英文. 甲、乙两只蚂蚁,同时从一跟绳子的两端向中间爬,20分钟后相距6米,这时甲爬了全长的40%,乙爬了全长的75%,求绳长. 活火山什么时候喷发 寅和卯的读音 甲开车,发现乙正往反方向步行走去,10分钟后把车停下跑去追乙.已知甲跑步的速度是乙的3倍,汽车的速度是乙的10倍,问甲追上乙需要几分钟? 梨树 桃树 杏树 你不让我我不让你 抓住春天里的花什么特点 子丑寅都指哪段? 线段AB被M分成3:5两段,同时又被点N分成3:1两段,如果MN=12厘米,求线段AB的长. 《咏雪》一文的主要内容 子,丑,寅,牟,辰,巳,戊,未,申,酉,戌,亥.罗马发音火影里的结印手势要用的 This is the reason whyhe late for school为什么用why,why可不可以省 2012的新年手抄报怎么做啊,(要内容,版面设计!)急---------------------- 谢道韫咏絮中,“公大笑乐”的原因是什么?继! 人教版七年级数学上册77页第八题 高中生物细胞增殖部分怎么学?特别是DNA和染色体在什么时候加倍. 日本的活火山有哪些 升旗手护旗手事迹简介开头怎么写字数不要多了! 有哪些细胞不再增殖(高中生物),请全部列举 地球上现在有多少座活火山? 升国旗的时候,护旗手如何把旗撇好,就是出去后,能让旗飘起来护旗手先把旗扬起来,旗手在升,可怎么扬才最佳!希望有经验的同学让告诉我,最好是天安门广场升旗班的同志告诉我! 修一条路,16天完成了全长的百分之48,己知修路队平均每天修60米.这条公路长多少千米? 中国有活火山吗?在哪? 哪位说说升国旗过程中,旗手举旗行进时,四个旗手应让旗面保持在什么样的一个角度? 梨树的资料 要写作文地 算式中的图形用数字代替,使算式成立. 逆转录的过程是病毒侵入活细胞的过程吗 一亩田种紫花苜蓿草需要多少草种 有木有用来形容看不透人心的句子,可以简短,但一定要有深度要有内容,诗也可以的. 我做了一回主.作文 草籽跟草子有什么区别 获一二三等奖的人占总人数的几分之几?其中获一二等奖的人占总人数的五分之三,二三等奖的人占总人数的八分之七 英语翻译即书诗四句,并自为其名.书:____ 为:____日眅仲永环谒于邑人.于: 咏雪 解释词语 兄女 因 兄子 判断题:1-a一定小于1 若对于有理数a,b,有a+b=0,则a=0,b=0.两个数的和一定大于每一个加数.速求正确谢 求以"让我做了一回主''为题目的500作文 用草做动物造型用什么草种好 生日蛋糕上写什么字好诗意的 以 今天我做了一回主 为题写一篇600字文章.初1水平的. 结缕草草籽现在种适合吗?现在种结缕草可以适合吗?该怎么种的啊? 谢道韫 《咏雪》中的名句是那句? 病毒侵入细胞内后 为什么体液免疫可限制病毒移动 咏雪的诗句有哪些? 10米多高的旗子,绳子掉下来了,如何把旗子再换上去呢?绳子如何穿过旗杆顶端的定滑轮?有没有知道的?谢公司里的旗子破了,我打算把它换下来,自己没注意,一个绳子跑到了上面.最后整个绳子 咏雪一文中用____和____来比拟大学纷纷. 解海龙简介 英国房价一年上涨5.8% 专家警告“伊朗“巴斯基”武装力量在伊展开演习 国际刑事法院再次推迟肯尼亚总统出庭受评论:解决伊朗核问题需要信任和耐心美将俄歌星列入黑名单 俄抗议表示不可中国好声音华少演喜剧 不拼舌头拼演技日本万圣节:“僵尸”涌上街头占领东京空气污染致癌 波兰致力于减少碳排放美参院情报委拟法案缩减监听记录 被批原吉林省常务副省长田学仁受贿1919嘉兴消防严查7家液氨企业 清剿火患2在建工地内工棚突发大火 杭州滨江消防杭州疾控举行卫生应急联合演习 “全副武义一店铺发生火灾爆炸事故 消防成功勒紧腰带节俭办展 浙江临海户外休闲用菲人质事件赔偿谈判开启 马尼拉代表语俄媒:中美等十余国将参与2014年在奥巴马出席投资美国峰会 游说外商投资日韩两国或围绕慰安妇问题大闹法国国际朴槿惠称决不容忍腐败 要求根除核电腐日俄拟举行联合军演 被指意遏制中国进浦发银行迈出国际化战略新步伐未来中国民企将获更好发展股指期货第二季东风Honda驾悦体验营建设川北首条百里交通安全文化示范路车市通鉴:逍客是怎样炼成的?宜宾新增一处遗体火化手续办理点方便老年人社区服务大厅楼上搬楼下failed: “我想放弃,把透析的failed: 超低日供3.3元,零改革将进一步放权市场failed: 银行进社区 帮扶贫困failed: 给社区书记打分 居民failed: 缩小城乡二元鸿沟 内failed: 竹篾编就《清明上河图改革再出发 川南新机遇failed: 这是哪个小区打印店做failed: 图片新闻老太看猴戏给1毛钱猴子不领情“销售先锋”引领“北京汽车速度”failed: 是什么让她有了这样的
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘