说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

一网打尽13款开源Java大数据工具,从理论到实践的剖析

HTML文档下载 WORD文档下载 PDF文档下载
Java Code Geeks联合创始人Byron Kiourtzoglou近日发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。

大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。

事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?真实的答案就是“如你所想的那么大”!

那么为什么会产生如此之大的数据集?因为当今的数据已经无所不在并且存在着巨大的回报:收集通信数据的RFID传感器,收集天气信息的传感器,移动设备给社交网站发送的GPRS数据包,图片视频,在线购物产生的交易记录,应有尽有!大数据是一个巨大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。

然而大数据的含义绝不只与体积相关,因为大数据还可以用于寻找新的真知、形成新的数据和内容;我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活,以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因:Volume(体积)、Variety(多样)、Velocity(效率)以及Veracity(Value,价值),也就是大数据的4V。下面将简述每个特性以及所面临的挑战:

1. Volume

Volume说的是一个业务必须捕获、存储及访问的数据量,仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没,轻易的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需要被组织、防护(窃取)以及分析。

2. Variety

世界上产生的数据有80%都是半结构化的,传感器、智能设备和社交媒体都是通过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据,举个例子:存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理,我们需要在数据储存和分析上面进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型,使用大数据技术却可以轻松的储存和分析。

3. Velocity

Velocity则需要对数据进行近实时的分析,亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需要尽可能的快于你竞争对手。另外一个例子是时间敏感性数据的处理,比如说捕捉罪犯,在这里数据必须被收集后就完成被分析,这样才能获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构使用近实时的方式对其分析。

4. Veracity

通过分析数据我们得出如何的抓住机遇及收获价值,数据的重要性就在于对决策的支持;当你着眼于一个可能会对你企业产生重要影响的决策,你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助,数据的真实性和质量才是获得真知和思路最重要的因素,因此这才是制定成功决策最坚实的基础。

然而当下现有的商业智能和数据仓库技术并不完全支持4V理论,大数据解决方案的开发正是针对这些挑战。

下面将介绍大数据领域支持Java的主流开源工具

1. HDFS

HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

2. MapReduce

Hadoop MapReduce是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

3. HBase

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

4. Cassandra

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

5. Hive

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。

7. Chukwa

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

8. Ambari

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

10. Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

  • 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
  • 聚集:收集文件并进行相关文件分组。
  • 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
  • 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

13. HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:

  • 提供一个共享模式和数据类型机制。
  • 提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
  • 为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

原文链接: What is Big Data – Theory to Implementation (编译/仲浩 审校/包研)

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名!

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加!

Q3全球智能手机报告:Android和iOS基本不变 WP最得意 Google Apps不再支持IE9 IE9用户或将无法使用Gmail等服务 [开源推荐]CecOS:企业级的云操作系统和虚拟化平台 Avangate SaaS模式开启全球软件新营销之门 Android平台的两大移动威胁现状与变化趋势 推荐五款优秀的PHP代码重构工具 11个值得注意的安全问题及应对,第12个高端黑 微软新举措:打通Windows和WP开发者账户,下调注册费用 合并两应用商店的前兆?微软开始合并Windows Store和WP开发者账户 最难忘的Bug调试经历 LiveCode:让每个人都能开发APP的开发平台 17173总经理赵佳:媒体移动化需抓住三大要素 Django 1.6发布 支持持久数据库链接 如何优化单页面网站搜索引擎? TechCrunch国际创新峰会将于上海举行 极路由:一场由路由器引发的概念盛宴 14nm制程:三星64bit处理器 Exynos 6/S曝光 从Oracle到MySQL,余额宝云实践分享 从南水北调东线工程看物联网,大数据的另一面 不只是技术!成为IT经理必备的十大软技能 看看传说5亿行代码的Healthcare.gov网站的架构 如何走出选择PHP还是ASP.NET的两难境地? 你的设计够档次吗?分享25个奇异的404页面 百度LBS推Openmap战略:无编程经验者可通过拖拽制作个性化地图应用 百万用户时尚分享网站feed系统扩展实践 Twitter上市首战告捷的四大因素 大幕将启!MDCC2013移动开发者大会下周召开 TUP第30期:微软资深专家论如何用Visual Studio开发iOS、Android应用 [开源推荐]Riot.js:不足1KB的MVP客户端框架 研发周报:最难忘的Bug调试经历 NSA如何侵入Google和雅虎的私有数据网络? 一个简单的问题??? sql server的SERVER端效率问题 VB6如何实现换肤功能 如何用对话之外的其它按钮控制对话框的关闭和打开 ! 关于picture的问题 算法与数据结构 寻找关于Dsound,Dplay方成的书籍或方档!! 如何在xsl中使用setTimeout()而得到渐显的效果? 在外面工作,做底层有钱途吗? 关于form的简单问题 搞过用TurboC开发图像,不知道转VC困不困难 有谁知<<终极杀阵>>游戏(Project IGI)第四回合怎玩的? 不知是否荒唐,大虾请 如果大家有问题告诉我(anjie@zj.soim.com) 如果大家有问题告诉我(anjie@zj.soim.com)一起讨论吗 想跟我交朋友anjie@zj.soim.com tc++3.0如何编写读鼠标程序(急) 都进来看看,程序员的下场... 各位高手,小弟问一个傻问题:怎么在播放一个AVI的时候用自定风格的滑块控制? 我上次在CSDN 上看到有人发贴子说自己写操作系统,我现在有个朋友也在写,想和他联系,但是我现在找不到那个贴子了, 有谁记得那个人的名字或贴子的位置请说.谢谢. 求助:打开网上邻居很慢为什么? 问一个蠢问题:控件何时获得焦点 请问一下哪里再收购软件呢? 请问一下在哪里可以找到收购软件的公司呢? 想作一个DOS程序,实现多台电脑间通过网卡传输文件. 辞职信 application.initialize完成了什么 高手来帮忙啊~ 看看java的魅力 如何通过自制程序的编辑框向现有一般应用程序编辑框传送内容? 窗口执行顺序问题,请多帮助,谢谢 如何自动取得server的日期和时间 怎样让文件指针指到文件末尾,必须skipline一行一行跳吗? 我想在菜单前添加图标,使用Bitmap属性但是为何只能载入*.bmp文件而不能使用*.ico文件,我只有*.ico的图标,请问该如何解决。 有新建一个文本文件并给其命名的函数吗,怎么用 我还真不懂呀? 这个COLTYPE是怎么用的呀?你说它怎么得到表中字段的类型呀? 有关存储器(ram,rom)的编址问题。以及32位或更多位芯片的问题。 一些汇编问题。想来问bcb的兄弟{bcb里好象有不少汇编高手} 救命:在安装了sco openserver之后,系统不能启动,先前安装的win98和win2k也不能。 请问如何进行URL译码??? 请问怎样截取一个string中的一段? 请问delphi做的exe最小可以到多少?怎么做? 我想请问一下WINGATE的具体怎样在WIN2000服务器版中进行设置。 ASP的同志们,能不能留一下QQ号码? 请问何处有破解ACCESS2000的程序或源代码呢? 请问要在TEdit.text组件文本串中找出当前光标在第几个字符上怎么办?谢谢! 请问关于dbImage控件的使用方法? 关于HDC及双缓冲的问题? xxxbird(*说你行,你就行,不行也行*),来领“我遇到几个怪问题。。。。。。”中的分 为什么ASP没法向SQL Server中写入数据?代码什么地方错了 大家帮忙找一下,找到我给50分 如图,AB与AC是两条互相垂直的直线,圆O的半径是15厘米,弧AEB是以C为圆心,AC为半径的圆弧,求阴影面积. 如下图,三个半径都是2cm的圆两两相交圆心,阴影部分的面积是多少平方厘米?画的不是很标准,看得懂就行,打得好的另加悬赏 如图,半圆内的△ABC的面积是80平方厘米,BD长8厘米,求阴影部分的面积. 在以O为圆心,以半径为4厘米的圆O内,以4为直径画四条半圆弧,求团中阴影部部分的面积 如图,外圆的半径是Rcm,内圆的半径是rcm,四个小圆的半径都是2cm,则图中阴影部分面积是多少?急不要用^这个符号,我看不懂 半圆o内的三角形ABC的面积是80平方厘米,BD=8厘米.求阴影不分面积. 如图16,AB与CD是两条垂直的直径,圆O的半径为15厘米弧度AEB是以C为圆心,AC为半径的圆弧,求阴影部分面积用小学的方法算 一个直径为6分米的半圆,里面有一个直角三角形,求三角形外阴影部分面积. 如图,半圆内三角形ABC的面积是24平方厘米,高BD是4厘米,求阴影部分面积是多少平方厘米. 如图,两个四分之一圆弧的半径分别是2和4,ABCD是长方形.求:两块阴影面积的差.追加分TUT 急!一个半圆,内有直角三角形,求阴影部分的面积 右图中BC是半圆的直径,图中阴影部分1的面积比2的面积少5.12平方厘米.AC长多少厘米?(BC等于8厘米) 如图,将半径为4cm的圆形纸片折叠后,圆弧恰好经过圆心O,折痕为AB,则图中阴影部分的面积为 已知直角三角形ABC三边分别为6.8.10,分别以它的三边为直径向上作三个半圆,求阴影部分的面积 下图的比例尺是1:500,在图上量得长是15cm 宽是8cm ,求阴影部分的实际面积是多少? 以三角形的三个顶点为圆心,以一厘米为半径在三角性内画圆弧,那么图中阴影部分的面积总共为多少? 求阴影部分的面积三角形空白是个直角三角形半圆直径6cm. 下图的比例尺是1:500,在图上的距离长是15cm,宽是8cm,求两个阴影三角形合起来的面积的面积. 四个半径都是8cm的圆的位置如图所示,你能求出阴影部分的面积吗?上面俩圆下面俩圆然后四边连起来不是连成正方形半径相连就行除了四个圆其它的都是阴影部分 下图中等腰直角三角形的腰长是6厘米,求阴影面积的面积 下图的比例尺是1:500,在图上的长是15厘米,宽是8厘米,求阴影部分的实际面积是多少平方米?4月17号就要大家看见的都来帮帮忙谢谢了! 长为8cm,宽为6cm的长方形内,分别以长和宽为半径画1/4圆,如下图所示,求阴影部分面积? 等腰直角三角形的一腰长是8厘米以它的两腰为直径分别画了两个半圆那么阴影部分面积共有多少平方cm 小圆直径8厘米,比大圆半径少3/11.小圆的面积是( ),大圆周长是( ). 图中圆的半径为5厘米,求阴影部分的面积. 如图,等腰直角三角形的一腰的长是7厘米,以它的两腰为直径分别画了两个半圆,那么阴影部分的面积共有多少 大圆的半径是12厘米,小圆的直径是8厘米,大圆周长和小圆周长的最简整数比是多少?面积比又是多少?要有算式 图中圆的半径为5厘米,求阴影部分面积. 如图是有一个直径为a的半圆和一个腰长为a的等腰直角三角形组成的图案,求阴影部分的面积 大圆的直径是8厘米,小圆的直径是6厘米,大圆和小圆半径的比是( ),周长的比是( ),面积的比是( ) 如图,最大圆的半径为5厘米,试求阴影部分的面积和要求写清过程 , 这是七年级第一学期的数学. 如图,BCDE是平行四边形三角形ABC是直角三角形,BC=8厘米,AC=7厘米,阴影部分面积比三角形AGF的面积大12CM,图片1求AC的长? 小圆的半径是8厘米,大圆的半径是12厘米.小圆和大圆的直径比是(),周长比是(),面积比是(). 图中,每个圆的半径是5厘米,求阴影部分的面积. 右图,ABC为等腰直角三角形,D为半圆的中点,BC直径长为8厘米,求阴影部分的面积. 小圆直径8厘米,大圆直径比小圆直径多三倍,小圆周长是大圆周长几分之几?小圆面积是大圆面积几分之几? 三个半径为1的等圆两两外切,那么图中阴影部分的面积为 在图中,△ABC与△ADE都是等腰直角三角形,BC长8cm,DE长4cm,求阴影部分的面积.要有算式,快~注:BC是△ABC的最长的边,DE是△ADE的最长的边 小圆直径是4厘米,大圆半径是4厘米,小圆面积是大圆面积的几分之几? 两圆的半径为1厘米,且图中的两块阴影部分的面积相等,那么两个圆心的距离是多少? 图中△ABc与ADE都是等腰直角三角形,BC=8厘米,ED=4厘米,求阴影部分的面积. 如图,已知小圆的直径等于大圆的半径,求阴影部分面积是大圆面积的几分之几 如图,外圆半径是Rcm,中圆半径是rcm,其余四个圆半径相等,则图中阴影部分的面积是多少? 在下图,三角形ABC与三角形ADE都是等腰直角三角形,BC长8厘米,DE长4厘米,阴影部分的http://tg5a39.mail.163.com/js3/main.jsp?sid=qAlTrsGGRaJSzSVkKgGGrgOwtgKKJtvg里面的附件就是图形。要快,越快越好 用户名:ty.p 如图,大圆半径为6,求其阴影部分面积 如图,外圆的半径是Rcm,内圆的半径是rcm,四个小圆的半径都是2cm,则图中阴影部分面积是多少? 三角形ABC与三角形ADE都是等腰直角三角形,BC长8厘米,DE长4厘米.求阴影部分的面积.请详细说明每一步算下什么. 如图 ,大圆半径为6,求其阴影部分的面积 一个半径为根号二的圆过一个半径为2的圆心,则图中阴影部分的面积为多少?图自己画,是月牙形的!最好两天之内有回复! 一个长方形长10厘米,宽8厘米,里面有一个为5厘米的半圆,其余部分为阴影部分,求阴影部分面积. 如图,小圆的5分之2是阴影部分,大圆的8分之3是阴影部分,求大圆面积与小圆面积的比. 矩形ABCD中,AB=1,AD=根号2.以AD的长为半径的圆A交BC于点E,则图中阴影部分面积为? 如图二所示,ABCD是一个长方形,长是8厘米,阴影部分的面积是()平方厘米?圆没画好!求阴影! 如图,大圆半径=小圆直径=8cm,求图中阴影部分的面积. 如图,圆o的半径为2,a是圆o外一点,ab切圆o于点b,ao交圆o于点c,ab=2根号3,求图中阴影部分的面积 一个长方形里有一个半圆,长方形的长是8厘米,求阴影部分面积 如图,阴影部分的环宽恰好等于较小圆的半径,阴影部分的面积是较大圆面积的()A.1/4 B.1/3 c3/4图在下面速回答,明天交.今日回答奖励50分! 一个环形,内圆直径8厘米,外圆半径5厘米,环形面积是多少平方厘米? 如图所示外圆半径是Xcm,内圆半径是rcm,四个小圆的半径都是2cm,则图中阴影部分的面积是多少?(2)当X=10,Y=5时,阴影部分的面积是多少?错了,四个小圆半径为3cm 下图中等腰三解形的腰长8厘米,求阴影部分的面积
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn