说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

一网打尽13款开源Java大数据工具,从理论到实践的剖析

HTML文档下载 WORD文档下载 PDF文档下载
Java Code Geeks联合创始人Byron Kiourtzoglou近日发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。

大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。

事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?真实的答案就是“如你所想的那么大”!

那么为什么会产生如此之大的数据集?因为当今的数据已经无所不在并且存在着巨大的回报:收集通信数据的RFID传感器,收集天气信息的传感器,移动设备给社交网站发送的GPRS数据包,图片视频,在线购物产生的交易记录,应有尽有!大数据是一个巨大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。

然而大数据的含义绝不只与体积相关,因为大数据还可以用于寻找新的真知、形成新的数据和内容;我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活,以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因:Volume(体积)、Variety(多样)、Velocity(效率)以及Veracity(Value,价值),也就是大数据的4V。下面将简述每个特性以及所面临的挑战:

1. Volume

Volume说的是一个业务必须捕获、存储及访问的数据量,仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没,轻易的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需要被组织、防护(窃取)以及分析。

2. Variety

世界上产生的数据有80%都是半结构化的,传感器、智能设备和社交媒体都是通过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据,举个例子:存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理,我们需要在数据储存和分析上面进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型,使用大数据技术却可以轻松的储存和分析。

3. Velocity

Velocity则需要对数据进行近实时的分析,亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需要尽可能的快于你竞争对手。另外一个例子是时间敏感性数据的处理,比如说捕捉罪犯,在这里数据必须被收集后就完成被分析,这样才能获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构使用近实时的方式对其分析。

4. Veracity

通过分析数据我们得出如何的抓住机遇及收获价值,数据的重要性就在于对决策的支持;当你着眼于一个可能会对你企业产生重要影响的决策,你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助,数据的真实性和质量才是获得真知和思路最重要的因素,因此这才是制定成功决策最坚实的基础。

然而当下现有的商业智能和数据仓库技术并不完全支持4V理论,大数据解决方案的开发正是针对这些挑战。

下面将介绍大数据领域支持Java的主流开源工具

1. HDFS

HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

2. MapReduce

Hadoop MapReduce是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

3. HBase

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

4. Cassandra

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

5. Hive

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。

7. Chukwa

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

8. Ambari

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

10. Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

  • 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
  • 聚集:收集文件并进行相关文件分组。
  • 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
  • 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

13. HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:

  • 提供一个共享模式和数据类型机制。
  • 提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
  • 为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

原文链接: What is Big Data – Theory to Implementation (编译/仲浩 审校/包研)

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名!

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加!

改变按钮的文本颜色-VB资料 功能强大的增强列表框 ――VB6控件LISTVIEW使用指南 关闭MDI窗体中所有的子窗体-VB资料 规范设计Windows应用软件菜单-VB资料 VB建立可滚动的视区 -VB资料 VB建立可下拉选择的属性 -VB资料 VB建立无模式窗口 -VB资料 将VB5中的ToolBar变成平面的 将程序从任务列表中隐藏 -VB资料 将我自已的命令加入窗体的控制菜单栏-VB资料 VB利用 UnloadMode 来控制窗体的卸载? VB利用Form_QueryUnload询问使用者是否关闭窗口 利用VB的图片框实现屏幕的滚动 利用VB动态改变Windows显示模式的两种方法 利用VB控制窗口显示风格 利用VB实现浮动按钮 VB利用子类处理技术限制窗体的大小 奇形怪状的窗体 -VB资料 强制ComboBox弹出下拉框 -VB资料 强制和防止窗口重画 -VB资料 巧用“关于”对话框-VB资料 请问在VB中如何关闭别的应用程序窗口 确定屏幕分辨率-VB资料 让VB5支持动画光标 让窗口拒绝接受键盘和鼠标事件 -VB资料 让窗体处于最前面 -VB资料 让窗体居中 -VB资料 让所有的控件都动起来 -VB资料 让最大化和最小化按钮消失-VB资料 任意多边形的窗口-VB资料 如 何将「拒 绝 被 盖 住 的 窗 口 」还 原-VB资料 我的机子上可能出现了病毒,怎么办 如何在apache 中用perl 关于Service Application 程序的调试 有关rs.absolutepage的问题,急! int 如何转换为TCHAR? 8分钟又一首 有谁用JAVA做过机房管理系统? 对csdn页面的一个提议 这样的方法怎么写?送500分 如何判断行尾,\r\n 关于翻译的问题 哪位知道用VB或VC实现WAV转成VOX的控件,或者是直接录音成VOX文件 请教群集服务器上数据库的连接问题 关于拷贝构造函数的问题!! 二两乾天只手擎,谁想到对得上的吗? 在一Bean中,我返回一ResultSet,那么在bean中无法关闭数据库连接了,该怎么办? 继承了TComboBox的WndProc后无法截获WM_CHAR消息为什么? ReleaseDC和DeleteDC有什么区别? TNMFTP编程下载时出现:socket send aborted请指教! 客户端用java,数据库为oracle,如oracle设置为某一字符集,此时在java中得到的字符是什么字符集? ★★★ASP页面奇慢无比,Html很正常。大家救救我吧!★★★ 哪位知道用VB或VC实现WAV转成VOX的控件或源程序,或者是直接录音成VOX文件 有个小程序,我出钱,谁想做? rs.close 与rs=nothing 有什么区别,应该怎样用比较好!! Outlook中便笺字体的设置问题 请问那里有.net的教程下载? delphi6中 Corba data object 中怎么用ado呢? 为什么总不行? 如何在pb中实现控制datawindow每页的打印条数? 哪位知道用VB或VC实现WAV转成VOX的控件或源程序,或者是直接录音成VOX文件 请教高手!恳请指点! 我有个小程序,我出钱,谁有兴趣做下? listview中如何得到当前鼠标所在位置的单元格内容 TRxtrayIcon控件,我搜索了多个地方,可一直没有在dephi上用的,那位有!! Unicode CreateCompatibleDC创建兼容的设备描述表有什么本质的用途? 好久没来了,不知说什么好! 请教:装ORACLE的分区所剩空间太小,能不能让新建的数据库文件保存在别的磁盘分区? 怎样加密文件和文件夹?很急!!! 如何实现StringGrid只有一列为编辑状态,其它列为只读? ClientDataSet执行关闭,为什么还会执行BeforeGetRecords事件呢? 如何实现将bmp图进行缩放,不要显示在屏幕上,但要存储到硬盘。急!!谢谢! 那有vs6下载? 可分割窗体 如何把TADODATASET转换成IDispatch类型 转换类型 COM的问题(新手) 如何应用ASF Reader Filter? 关于接收windows消息的问题 java程序移植到linux下中文字体变成??||之类的,怎么解决 怎么近来CSDN上的N多历史帖子都看不了了 ? 如何获取汉字的拼音码? 《舌尖上的中国》为什么这样红 现代文阅读答案 有一架天平和一个50克的砝码 如果要得到500克糖果 只许称三次 应该如何称? 研究滑动摩擦力的大小跟哪些因素有关系的实验:实验时为什么要用弹簧秤拉木块做匀速直线运动?这是因为弹簧秤测出的是拉力大小而不是摩擦力大小.当木块做匀速直线运动时,木块水平方 中国红为什么这么红的文章,要求有题目,摘自每周阅读计划 500克天平要配置哪种砝码 要将重300N的木箱在水平地面上推动,至少需要150N的水平推力,但在推动以后只需120N的水平推力就能是它匀速运动.求:(1)木箱所受最大静摩擦力和滑动摩擦力的大小?(2)在木箱静止时用100N的水平 中国红为什么这么红 阅读1、全文从哪些角度表现中心2、概括第七段主要内容 动量及能量物理题,比较有趣,12、如图所示,在距水平地面高为0.4 m处,水平固定一根长直光滑杆,在杆上P点固定一定滑轮,滑轮可绕水平轴无摩擦转动,在P点的右边,杆上套有一质量m=2kg的小球A,半 饮水机保温的功率是多少?我家的饮水机加热的功率是550W的,但不知道保温的功率是多少? 中国红为什么这么红 阅读答案20题 质量为10kg的物体放在粗糙的木板上,挡木板和水平面的倾斜角是37°,物体恰好可匀速下滑.(1)当夹角为30°时,物体受到的摩擦力是多少?(2)当夹角为45°时,物体受到的摩擦力是多少?(sin37°=0.8 cos37° 求功率小于350W的饮水机 已知a,b为实数,则解可以为-2<x<2的不等式组是哪个A:{ax>1 B:{ax>1 C:{ax<1 D:{ax<1{ bx>1 { bx<1 {bx>1 {bx<1 把一个棱长为3厘米的小正方体叠放在一个棱长为6厘米的大正方体上,这个新的立体图形的表面积是多少? 怎样测量饮水机内胆功率 已知a,b.为实数.则解可以为x大于-2小于2的不等式组是 A:ax>1 B:ax>1 C:ax 有关动量能量的全长L、总质量为M的柔软绳子,盘绕在一根光滑的直杆上,现用手握住绳子一端,以恒定的水平速度v将绳子拉直.忽略地面阻力,试求手的拉力F答案的方法是用动量定理做的,貌似 一道高中动量能量的物理题如图所示 A、B 两物体静止于平板车C上,mA :mB :mC = 1:2:3 A、B 间有少量炸药,A、B 与平板车C之间的动摩擦因数相同,平板车C置于光滑水平面且足够长,炸药爆炸后A、B 分 孙明和汪磊都利用课余时间去敬老院打扫卫生,孙明每三天去一次,汪磊每五天去一次,六月的最后一天两人正同时去,最快七月几日他们有同时去? 密码中的真情, A、B两球在光滑水平面上沿同一直线,向同一方向运动,A球动量为5kgm/s,B球动量为7kgm/s,两球碰后B球动量变为10kgm/s,则这两球质量关系可能是A.M(A)=M(B) B.M(A)=2M(B)C.M(A)=4M(B) D.M(A)=6M(B) 7月2日,小红、小丽、小明三人一起来到敬老院打扫卫生,扫完之后,三人约定,小红每隔1天来敬老院搞一次卫生,小丽每隔两天来一次,小明每隔3天来一次,那么,下一次三人同时来敬老院是7月几号 密码中的真情 30钟内初入大学时,父亲为她办了一张银行借记卡,并存入一学期所需要的全部费用.远行的前夜,父亲特意告诉她卡的密码,并告诫这个密码要铭记在心,万勿随处乱记,否则,密码被 如图所示,质量为m2和m3的物体静止在光滑水平面上,两者之间有压缩着的弹簧,有质量为m1的物体以v0速度向右冲来,为了防止冲撞,m2物体将m3物体发射出去,m3与m1碰撞后粘合在一起.问m3的速度至少 三个相同物体ABC从上到下叠放在地面上,重力都为10N,都处于静止状态,F1=2N,求:AB间,BC间,C地间摩擦力分别为多大?要说明理由啊 自己的真相阅读答案1.伦勃朗的画受到了当时所有人的嘲笑,但他为什么还理所当然地拒绝再重画一副?2.文章复述晚年伦勃朗为学生当模特的情节有什么意义和作用?3.结合文章,说说标题“自己 抽样检查一种商品,有48件合格,2件不合格,这种商品的合格率是();如需1000件合格产品,需至少生产()件(保留整数) 给蝴蝶花香阅读给蝴蝶花香①蝴蝶是一种很受人们欢迎和青睐的小生灵,她曾让许多人为之心醉、为之魂迷.前不久,我为蝴蝶写了这样的诗句:“你这梦的精灵 /你这画的女儿/摆弄风情万种的 大米,优质一级与优质三级相比哪个更好? 《自己的真相》阅读答案作者是:余秋雨 一道关于高一摩擦力的题为什么我们老师说在斜坡上的物体,如果受到一个推力,它不一定会受到摩擦力呢?我觉得一定有啊.如果不一定,跟我说为什么 大米是一级的好还是三级的好啊 那种消化腺将消化液直接分泌到消化道内的腺体( ) A唾液腺 B肝脏 C胰腺 D胃腺 一道关于高一摩擦力计算的题目一物体质量为4kg,放在摩擦系数为0.2的水平地面上,用水平拉力F=10N作用于它时,物体刚好从静止开始动,求下列各种情况下它所受的摩擦力大小:(g取10m/s^2)1.当用水 大米一级好还是三级好 帮忙搞定一下生物题目:位于消化道外的消化腺有( ) A 、唾液腺、肝脏、胰腺 B、肠腺、胰腺、胃腺 C、唾液 高一关于摩擦力一道物理题先上百度质量4KG的A物体和质量6KG的B物体叠放在一起(A在上,并且拉力拉的是A)B物体与水平面之间的动摩擦因数为0.05,A,B间的最大静摩擦力为8N,若使A,B一起前进,求F 谁有关于高一摩擦力的试题 位于消化道外:肝脏,唾液腺 消化道内:肠腺,胃腺,胰腺 是这样的吗 现代文阅读怎么回答的才能接近答案?有时后文章思路理清了,但是答题时,一篇阅读题每题回答的都差不多,都是什么和中心有关的,但是有些答案却天差地别(一般都是说明文,也有少数记叙文是 大米是粳米吗 下列属于消化道壁外的大腺体的一组是.A.唾液腺 胃腺 肠腺 B.唾液腺 胰腺 胃腺 C.胰腺 肠腺 肝脏D.肝脏 胰腺 唾液腺 已知a为实数,试解关于x的不等式x≥(x^2-2x-a)/(x-1) 具有生物催化作用的酶都是有氨基酸组成的这句话对吗 胰腺分泌的胰液 肝脏分泌的胆汁 从哪里进入消化道? 现代文阅读 回答问题 帮帮忙啊 有悬赏对一朵花微笑 刘亮程 1.我一回头,身后的草全开花了.一大片.好像谁说了一个笑话,把一滩草惹笑了. 2.我正躺在山坡上想事情.是否我想的事情--一个 具有生物催化作用的酶都是由氨基酸组成的吗 一个动量与能量的问题题一;质量是10g的子弹【m】,以300m/s的速度【v1】射入质量是24g静止在水平桌面上的木块【M】,并留在木块中.子弹留在木块中以后,木块运动的速度是多大【v2】?如果子 试确定实数a的取值范围,使不等式组 恰有两个整数解.由 x/2+(x+1)/3>0,两边同乘以6得3x+2(x+1)>0,解得x>- 2/5,由x+(5a+4)/3>4/3(x+1)+a,两边同乘以3得3x+5a+4>4(x+1)+3a,解得x<2a,∴原不等 【生物氨基酸结构问题】判断这个是不是氨基酸?H2N-CH2-COOHNH2-CH2-CH2-COOH第一个和第二个哪个是?哪个不是?第二个的氨基和羧基不是连在同一C原子上?还有一个问题,是不是一定要对正C原子才算 介绍京剧的英语作文字数不限.要接受英语的作文 有关现代文阅读问题的回答当题目出现“某某句子用了什么修辞手法,其含义是什么?”,应该怎样回答? 用棱长是1厘米的立方体快拼成如图所示的立体图形,问该图形的表面积是多少平方厘米 京剧的英语作文,急,介绍京剧脸谱,服装,分类,英语作文,100字左右,要求带翻译的,翻译器的别来啊, 读初一现代文,回答丑女王萃萃宋冬游萃萃是我的同乡.同萃萃相识并成为非常要好的朋友却是在一座异乡的城市.那年我利用暑假去山东一家报社打工.九月的时候,我们企业文化部邀来这座城 现在有一个天平,一个500克和900克的砝码,怎样只称9次,就能把200克食盐分成相等的10份 英语作文-京剧简的妈妈生病了,简给妈妈献鲜花,唱京剧,使她妈妈振作起来, 京剧的历史 中国红和中国甜阅读答案 有9000克盐,200克砝码一个,一架天平,怎样分三次秤出2000克盐? 英语翻译京剧富含中国文化元素,通过美丽的图案,精致的戏服和优雅的手势向观众展示中国文化的多样性
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘