说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

一网打尽13款开源Java大数据工具,从理论到实践的剖析

HTML文档下载 WORD文档下载 PDF文档下载
Java Code Geeks联合创始人Byron Kiourtzoglou近日发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。

大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。

事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?真实的答案就是“如你所想的那么大”!

那么为什么会产生如此之大的数据集?因为当今的数据已经无所不在并且存在着巨大的回报:收集通信数据的RFID传感器,收集天气信息的传感器,移动设备给社交网站发送的GPRS数据包,图片视频,在线购物产生的交易记录,应有尽有!大数据是一个巨大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。

然而大数据的含义绝不只与体积相关,因为大数据还可以用于寻找新的真知、形成新的数据和内容;我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活,以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因:Volume(体积)、Variety(多样)、Velocity(效率)以及Veracity(Value,价值),也就是大数据的4V。下面将简述每个特性以及所面临的挑战:

1. Volume

Volume说的是一个业务必须捕获、存储及访问的数据量,仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没,轻易的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需要被组织、防护(窃取)以及分析。

2. Variety

世界上产生的数据有80%都是半结构化的,传感器、智能设备和社交媒体都是通过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据,举个例子:存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理,我们需要在数据储存和分析上面进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型,使用大数据技术却可以轻松的储存和分析。

3. Velocity

Velocity则需要对数据进行近实时的分析,亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需要尽可能的快于你竞争对手。另外一个例子是时间敏感性数据的处理,比如说捕捉罪犯,在这里数据必须被收集后就完成被分析,这样才能获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构使用近实时的方式对其分析。

4. Veracity

通过分析数据我们得出如何的抓住机遇及收获价值,数据的重要性就在于对决策的支持;当你着眼于一个可能会对你企业产生重要影响的决策,你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助,数据的真实性和质量才是获得真知和思路最重要的因素,因此这才是制定成功决策最坚实的基础。

然而当下现有的商业智能和数据仓库技术并不完全支持4V理论,大数据解决方案的开发正是针对这些挑战。

下面将介绍大数据领域支持Java的主流开源工具

1. HDFS

HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

2. MapReduce

Hadoop MapReduce是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

3. HBase

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

4. Cassandra

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

5. Hive

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。

7. Chukwa

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

8. Ambari

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

10. Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

  • 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
  • 聚集:收集文件并进行相关文件分组。
  • 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
  • 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

13. HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:

  • 提供一个共享模式和数据类型机制。
  • 提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
  • 为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

原文链接: What is Big Data – Theory to Implementation (编译/仲浩 审校/包研)

“  第五届中国云计算大会 ”将于2013年6月5-7日在北京国家会议中心隆重举行。猛击报名!

相关活动已经火热启动:

2013中国云计算大调查,每周大奖等你拿! “

Innovation Cloud 2013云创新产品与应用项目征集,欢迎研发者、团队和创业企业参加!

在Swift中,如何更优雅地处理网络返回数据? Spark生态系统解析及基于Redis的开源分布式服务Codis 阿里巴巴技术专家杨晓明:基于Hadoop技术进行地理空间分析 Bowery为什么放弃Node.js,转向Go? 《近匠》有了APM,用户快到碗里来——专访听云CTO Wood 联通WO+梦工厂唐敏:走进厦门 构建移动数字生态 HTML5 VS 原生,世界究竟是谁的? 完全开放 微软开源.NET Core的执行引擎CoreCLR Swift与Objective-C的兼容“黑魔法”:@objc和Dynamic 网络技术,从“数制”开始学起——跟随王达老师一步步学习 UPYUN CTO黄慧攀:UPYUN这些年,一段“刚好”的旅程 2015移动游戏重中之重:需成功把握1%付费用户的心 UNITE 2015 BEIJING 20大议题首爆 死路一条?智能硬件免费没有未来 APICloud推出“模块 Store” 公布APP创业 “Time to Market”战略 极路由加入海尔U+联盟 可跨品牌控制多款家居设备 《近匠》Amaze UI:做最懂中国程序员的开源HTML5框架 Testin CTO徐琨:要做测试领域的阿里云! TIOBE 2015年2月编程语言排行榜:JavaScript排名达历史最高点 机智云发布第二代GoKit开发板,兼容Arduino与Intel Edison 计算机视觉,让冰冷的机器看懂这个多彩的世界 昔日学霸反哺教育 打造教育领域今日头条 第三方DevOps实践报告发布 84%中国企业预将受益 《程序员必读之软件架构》作者Simon Brown:架构师与程序员的区别 Xcode 6.3 Beta发布,Swift 1.2带来哪些新变化? 应用生与死:移动测试究竟该怎么搞? Chrome将跟SPDY说再见,拥抱HTTP/2 ImageNet挑战赛中超越人类的计算机视觉系统 微软发布首款Android可穿戴设备人工智能产品 红包大战!双11过后,微信支付宝的又一个营销游戏 O2O大潮来袭,洗牌将至? 数据窗口中某字段为date类型,我希望新增记录是能自动将当天的日期附值给它 谁有 平衡二叉树的插入算法 的C源代码? 谢了 什么软件可以修改.hlp文件 id是怎么随机生成的?这是小弟我学asp.net遇到的疑惑 一个FLASH,,看看像不像自己。。。 谁有 平衡二叉树的插入算法 的C源代码? 谢了 请问那里有ms exchange server2000正式企业版下载的?很急用,到处都找不到,请大家帮帮忙,谢谢! Win2000辅助域控制器问题。无法建立辅助域控制器。谢谢! 什么函数能对CStringArray中的字符串按字母顺序排序? 请问数据窗口更新的问题。 请教有没有判断日期格式是否正确的函数? 各位高手,有人听说过PCI-7841,帮帮忙吧,拜托了 js可以修改xml里的数据吗? 如何知道某一台电脑的IP的子网掩码??急!!! 考试通过心情爽,开心、快乐的人请来!!! 什么地方有关于这个APACHE的安装,配置的讲解呀? 请教PB高手,谁可以告诉我下段程序的功能 神啊~~救救我吧~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 谁有没有好的方法将一条记录从表1中添加到表2(Ado连接)(在线等待)???? 如何判断鼠标是否移出一个窗口(广义上的窗口),且此窗口没有句柄 对delete 操作释放内存资源有些搞不清楚? SQL SERVER 中有没有计算余数的函数? 如何用vb开发web组件,比如说上传文件组件,发email组件,思路是什么?怎么样实现? 有谁知道哪里能下载我形我速,我找的网站下不下来,帮帮忙吧! 怎么让我的opengl程序link成static的,不想总是需要dll 为什么我的DBGRID不能用???? 来者有分!我想找一个能暂停一个程序并保存下来的软件。 100分的小问题,寻SQL语句,选出最小的记录? Dialog中能不能加ToolBar? ODBC参数绑定,为什么会失败,我已经试了最起码10次了,高手给我指教一下好吗,程序是这样的,谢谢! 请教一个数据库问题,大数据量时如何处理才能使速度不至于太慢,还望赐教! 我不明白,既然微软将C#定位在网络上,而且还大力支持ASP.NET,为什么在开发时还要大量借助于JavaScript呢? 怪事情更新表也会出现这种问题的吗?? 急!急!急!怎么不能注册com组件???? 怎样生成一个空文件,然后向里面写一些record数据? 有没有什么好的办法,可以倒入倒出数据? 关于encode,请帮忙! 如何过滤掉我不想要的xml文档? hydnoahark(诺亚方舟) come in!! C#的应用程序如何部署到windows 的其他计算机上? 不好意思,数据库连接:( winapi gettcptable怎么用? 请教:怎样利用特定大小的缓冲区播放大型的WAVE格式的声音数据 紧急求助!!!j2sdk-1_3_1-linux-i386.bin这样的文件在linux下怎么打开:( 用ado打开excel时报from子句语法错误,为什么? 怎样使用directx8.0从多媒体数据流中抓图? 求Ethernet中数据包获取的VC++源码,要能采集HTTP,FTP数据包~~~~~~~~~ 在工作者线程中,要调用主线程的函数,如何实现? 请教:如何实现数据顺序输入? 小弟刚刚学,有一小问题请大家帮忙??????????好急呀!!!! 关于CFileDialog的问题 压力传感器(将压力信号转变为电流信号)接收到的压力信号一直不变,而实际压力是不断在变化的.传感器输出的电流信号为一定值,在输入压力变化时,输出电流信号不变是怎么回事? 白色粉末A由Na2S、Na2SO3、Na2S2O3、Na2SO4、NaCl等物质中的三种混合而成.取一定量A样品投入100mL 2.2mol·L-1盐酸中,充分反应后过滤,最终得到100mL H+浓度为1mol·L-1的溶液.若将此溶液蒸干,只得到8. 请问,消防负荷都有什么啊?包括各设备的功率,以及型号,适用于一25层的办公楼,最好能把各设备的数量也分列一下,本人菜鸟,越详细越好.总负荷约400KW左右吧.谢恩啦 功不是力与力的方向上距离的乘积吗,那锻打物体时也没有距离啊,为什么还说做功啊? 生物接触氧化池的工作原理 以12米每秒的速度行驶在平直的公路上的汽车,以六米每秒的加速度紧急刹车,刹车后汽车做匀减速直线运动,求刹车5秒后汽车的速度和位移各为多少 怎么检测气体压力传感器是用电流还是用电压传输信号的.. 生物学业水平测试 考纲范围中的问题,求哥哥姐姐们和老师们来解答. 氯化钾与硫酸铵为什么能发生复分解反应 压力传感器的输出信号怎么转换为压力?压力传感器RANGE:200 = 0 to 200 psig;INPUT/OUTPUT:12 to 25 VDC/1 to 5 VDC.如果信号采集到的信号为1.5VDC,请问这个时候压力是多少?这个是线性的一个变化吗?我把 拿一个物体上楼梯所做的功的力是物体重力还是自身重力加物体重力?所移动的距离是垂直距离还是所走的楼梯长 3a表示( )(用实际背景或几何意义解释) 我打碎了一个温度计不知道里面的水银有没有洒到床单上能不能看出来 在初中已经学过,如果一个物体在力f的作用下沿着力的方向移动了一段距离l,这个力对物体做的功w=fl,我们还学过,功的单位是焦耳(j),请由此导出焦耳与基本单位米(m),千克(kg),秒(s) 10a表示什么实际背景或几何意义解释 温度计里的水银撒床单上怎么办 A,B两辆汽车在笔直的公路上同向行驶,当B在A钱84米处时,B车的速度为4米每秒,且正以2米每二次方秒的加速度做匀加速运动,经过一段时间后,B的加速度突然变为0,A车一直以20米每秒的速度做匀速 哪里有压力发电机卖?希望达人们能给点压力发电机参数:需要的压力范围、输出的电压电流值 用什么试剂鉴别(NH4)2SO4、NH4Cl、AlCl3、Na2SO4和NaCl 高中物理有哪些运用到了等效替代法,举出实例~我现在想到的有 合力和分力,交流电电流有效值,等效电路,等效电阻,环形电流和条形磁铁周围的磁场,还有哪些?1楼的大哥,那是理想化模型法... A、B两辆汽车在笔直的公路上同向行驶,当B车在A车前84m处时,B车速度为4m/s,且正以2m/s2... 现有NaCl、(NH4)2SO4、MgSO4、NH4Cl四种无色溶液,请用一种试剂加以鉴别,并写出有在线等 等效替代法我要! A、B两辆汽车在笔直的公路上通向行驶,当B车在A车前84m处时,B车的速度为4米每秒,且正以2米每二次方秒的加速度做匀加速运动,经过一段时间后,B的加速度突然变为0,A车一直以20米每秒的速度做 能将电能转化成磁性的装置叫 人类的复杂反射比简单反射更重要, A,B两辆汽车在笔直的公路上同向行驶,A车已知以20米每秒的速度做匀速运动,当B车在A车前80米处时,为4米/s且正以2m/s的加速度做匀减速运动,则A车需几秒可以追上B车.A4s B4.2s C5s D20s 西汉,东汉,三国,隋朝,唐朝,元朝,明朝,清朝时期东北叫什么 你所熟悉的动物有没有反射活动?试举例说明.) thankyou all the same 有一包白色粉末,可能是碳酸钠、氢氧化镁、氯化钡、硫酸钠、硝酸钠中的一种或几种的混合物,,现做如下实验:(1)将少量粉末放在烧杯中,加足量水、搅拌、静置、过滤,得无色溶液及白色 氯化钾能和稀硫酸反应吗?生成物HCl是液态还是气态?HCl不是具有挥发性易挥发成氯化氢气体吗? 问下,怎么理解保险中的风险? 为什么水银血压计总是气袖充气我家里有两个血压计,一个水银血压计,一个压力表血压计,两个都是开始好用,但用了几次以后,当捏球充气的时候,气总是充满气袖,而不向水银柱或者压力表走, 油丁取暖器与电暖扇谁好 用物理中的等效替代法解一道题用两节干电池,三只开关,待测电阻,【电压表(0—3v,0—15v),电流表(0—0.6A,0—3A),滑动变阻器(100Ω 2A),变阻箱(0—9999Ω 2A)】和导线测量一电阻约为1000Ω 如何排除血压计水银中的空气 包白色固体,可能含有氯化钠,硫酸钠,碳酸钠,氯化钡,硝酸钠中的一种或几种.有一包白色固体,可能含有氯化钠,硫酸钠,碳酸钠,氯化钡,硝酸钠中的一种或几种。取样溶于水,有白色沉淀 如图1所示,将质量为m1的铜块放置于漂浮在水面上的木块上,恰能使木块全部浸入水中,而铜块仍留在空气中,如果把质量为m2的铜块挂在木块下面,也恰能使木块全部浸入水中,求m1与m²的质量 求够红薯淀粉 做粉条用的 家中取暖,电暖气与暖气扇用哪个比较好 好像要用替代法将阻值相等的电阻R1和R2 串联后接在一个电压恒定的电源两端.若其中R1的电阻值不随温度的变化而变化.而R2的电阻随温度升高而增大.随温度的下降而减小.则对R2加热或冷却,R2 改革开放30年 小故事我需要关于改革开放30年的一些小故事(注意是 小 )嗯 这个故事大概是说改革开放那段历史公民的生活状况的变化的 电取暖器的特点有哪些? AB两辆汽车在笔直公路上同向行驶,当A车在B车前96M处时,B车速度为4,且正以某加速度运动,A车一直以8的速度匀速运动,经过12S后,B追上A,求B的加速度要过程 改革开放30年小故事故事,不要文章.gyy9911,“我”是谁?有名的话我选你! 汞中毒原理是什么? ■■加分的★物理电路实验题■■:请尝试用“等效替代法”解题【探究目的】:粗略测量待测电阻Rx的值.【探究器材】:待测电阻Rx、一个标准的电阻箱、若干开关、干电池、导线和一个 一定要是故事——改革开放30年故事 汞中毒有什么反应? A、B两辆汽车在笔直公路上同向行驶,当B在A前84m处时,B车速度为4m/s,且正2m/s*加速度做匀加速运动;经过一段时间后,B车加速度变为0.而A一直以20m/s的速度做匀速运动,经过12s两车相遇,问B加速行 只用一种试剂就能把Na2SO4,NaCl,(NH4)2SO4,NH4Cl四种溶液区分 这试剂是? 鉴别NACL,NA2CO3,NA2SO3,NA2SIO3,NA2S2O3为什么用HCL,写出方程式与现象 AAO工艺流程 改革开放30年大事迹要求以列表形式呈现、(时间:--事件) 同时鉴别六种Na2S、Na2S2O3、Na2SO4、Na2SO3、Na3SbS3和Na2SiO3的试剂 污水处理厂AAo工艺高程如何计算?不需要计算沿程管道和阀门的,只需要计算各个构筑物的水头损失构筑物的水头损失在图上如何表示? 改革开放30年的故事四分钟以内,500字左右,故事性强,适合讲的, 白色粉末A由Na2S、Na2SO3、Na2S2O3、Na2SO4、NaCl等物质中的三种混合而成.白色粉末A由Na2S、Na2SO3、Na2S2O3、Na2SO4、NaCl等物质中的三种混合而成.取一定量的A样品投入100mL2.2mol/L盐酸中,充分反应后过滤 污水处理中,AAO工艺,主要反应池有效水深怎么设定的呢?有规定范围吗?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘