说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

数据控使用Hadoop的三种最常用方式

HTML文档下载 WORD文档下载 PDF文档下载
随着Hadoop技术的发展,从最初为Google、Facebook等公司解决大量数据的存储问题,到现在被越来越多企业用来处理大数据,Hadoop在企业数据领域影响深远。了解其常见的使用模式,可以极大地降低使用复杂性。

就在几周前,Apache Hadoop 2.0正式发布,这是 Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的“大数据”基础技术,但它是否适合当下数据库及数据仓库的使用方式?又是否有一种通用模式可以切实降低固有的使用复杂性呢?

Hadoop使用的一般模式

Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在,它正被越来越多地引入企业环境中处理新不同数据类型。机器生成的数据、传感器数据、社交数据、网络日志等数据类型呈指数级增长,而且这些数据也常常(但不总是)是非结构化。正是由于这种类型的数据将人机对话从“数据分析”带到“大数据分析”:因为挖掘这些数据可以得到商业优势。

分析应用程序以各种形式流行起来,最重要的是可以定向解决一个垂直行业的需要。乍一看,他们彼此似乎在行业和垂直上没有关系,但是实际上,当在基础设施层面观察时,会出现一些非常清晰的模式,也就是以下3种模式:

Pattern1:数据精炼厂

使用Hadoop的“数据精炼厂”模式使组织能够将这些新数据源纳入他们常用BI和分析应用程序。例如,我可能有一个应用程序,它能够在ERP和CRM系统中查看客户建立在上面的数据。但是如何才能从他们的web session(基于我们网站)中发现他们的兴趣所在?“数据精炼厂”,这个使用模式正是顾客期望的。


这里的关键概念是Hadoop是被用来提取大量数据以便更容易管理。然后生成的数据被加载到现有数据系统,这些数据可以使用传统的工具访问,但是别忘了,这些操作都是建立在更丰富的数据集上。从某些方面来说,这是最简单的用例,因为无需对传统途径进行大的修改,企业就可以清晰的从Hadoop上获益。无论垂直与否,精炼厂概念仍然适用。在金融服务领域,我们看到组织提炼交易数据以便更好地了解市场,分析和从复杂的组合中寻找价值。能源公司使用大数据来分析不同地区的消费水平以便更好地预测生产水平。零售企业(任何面向消费者组织)经常使用精炼厂来洞察网络人气。电信公司使用精炼厂调用电话记录来提取有用信息细节以便优化计费方式。最后,在昂贵的,任务关键的垂直设备上,我们常常发现Hadoop被用来预测分析和主动的故障识别。在通信技术中,这可能是一个网络的基站。特许经营餐厅中可以用来监控冷藏库的数据。

Pattern2: 用Apache Hadoop来探索数据

第二个最常见的用例我们称之为“数据探索”。在这种情况下,组织在Hadoop上获取和存储大量的新数据,然后直接探索这些数据。因此不是使用Hadoop作为暂存区域进行处理然后将数据转移到企业数据仓库(就像使用精炼厂用例一样),数据是保存在Hadoop上然后直接探索。


数据探索用例通常是在企业开始可以探索以前被丢弃的数据(如网络日志,社交媒体数据等等)并构建全新的分析应用程序然后直接使用这些数据。几乎每一个垂直系统都可以享受到探索用例的优越性。在金融服务领域,我们可以用探索用例来执行取证或识别欺诈。职业体育团队将利用数据科学来分析交易和年度草案,就像我们在电影《Moneyball》看到的。总之数据科学和探索可以用来发现新的商业机会或新的见解,这在Hadoop之前是不可能实现的。

Pattern3: 挖掘应用程序

第三个也是最后一个用例是“挖掘应用程序”。在这种情况下,存储在Hadoop中的数据决定了应用程序的用途。例如,通过挖掘存储的所有网络会话数据,当用户重返网站时,我们可以为他们定制个性体验。通过挖掘Hadoop中存储的这些数据,我们可以从会话历史找到很多有用的价值。比如通过用户的历史记录来提供一个及时反馈。


这个用例是世界上许多大型网站如Yahoo、Facebook等业务的基础。通过定制的用户体验,他们可以有效与他们的竞争对手区分。这是雅虎Hadoop的第二个用例,就如当初它意识到Hadoop能够帮助改善广告位置一样。这个概念转变了大型的网站,同时也正在使传统的企业改善销售,而一些小组织甚至也使用这些概念在零售网点实现动态定价。

正如你所预料的那样,随着组织熟悉在Hadoop上提炼和探索数据,最后的这种最典型的用例正在被普遍采用或接受。但与此同时,这也暗示了今后Hadoop能做什么,并且随着时间的推移和发展,传统的数据库应用程序将逐渐被Hadoop应用程序取代。

当然任何涉及到新平台技术,在进入IT企业环境时都有一定的复杂性,Hadoop也不例外。无论你是使用Hadoop来改进或是探索,还是丰富你的数据,与现有IT基础架构的兼容将是关键。这就是为什么目前Hadoop生态系统和能集成不同供应商之间解决方案得以显著增长。Hadoop有潜力在企业数据领域产生深远影响,通过理解常见的使用模式,您将可以极大地减少其复杂性。

原文链接:The three most common ways data junkies are using Hadoop (编译/魏伟 审校/仲浩)

CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、生态圈趋势。

MySQL再度失势:继维基百科之后,Google也迁移到了MariaDB Werner Vogels:亚马逊热爱艺术的CTO Jolla宣布Sailfish OS兼容Android手机硬件和应用 为什么项目估算偏差如此之大? Cloud Connect大会Day2:开源与云数据中心 CTO俱乐部第110期下午茶:利用麦肯锡7S模型构建管理框架 跨平台打造移动原生应用的10大武器 iOS与Android本地数据库新选择:使用Objective-C和Java编写 Cloud Connect大会day3:Intel的大数据与Metacloud私有云 农民也玩数据挖掘:基于物联网的高端种菜模式 前谷歌Android开源项目主管Queru加盟雅虎 Windows 8.1售价出来了!分别是119.99美元、199.99美元 对AngularJS进行性能调优的7个建议 为什么说UX设计师的黄金时代已来临? 豌豆荚:“应用内搜索”是打通移动互联网最具竞争力的入口 苹果发布会后的冷思考,64位芯片为开发者带来了什么? 中兴Geek评测:高性价比的英特尔处理器智能机 SAE的资源、安全隔离与Container 平板电脑悬了 Phablets或成为未来移动设备的主流 拿什么拯救你:黑莓今年将裁员4500人 推荐10款免费的在线UI测试工具 最好的Java IDE之争:Eclipse PK IntelliJ IDEA Intel发布E5 2600 v2处理器 开放硬件监控信息 XP寿终大限将近 微软再次呼吁用户尽早“分手” Dropbox CTO:离开办公室就焦虑的技术宅男 看雪学院“走进企业看安全”活动百度站落幕 九大设计技巧+作品赏析 激发你的创作灵感! 排名前十CEO的工资条,你怎么看? 麻省理工TR35之IT界年轻有为创新者(下) Storm的“翻版”:LinkedIn开源实时数据处理系统Samza 呼吸监测耳机:一个在“呼吸”上做文章的可穿戴设备 自动生成图片 datawind如何与window联系起来啊 存储过程同时调用和数据库异地备份问题? 在xsl中如何调用javascript 误删系统盘,救命!!! 请问ACCP和高程考试相比哪个更有份量? 求LeapFTP V2.7.3.600的注册码 5月6日我来CSDN的二周年,散分,纪念。。。。 listbox (湖南)今年非典搞得这样,会耽误报高程吗?今年有人报了吗?怎样报的? ComboBoxEx在 SetImageList 时出错 在DBComboBox中脸上数据库后,为什么进行选择时会出现“违反了Primary 约束“ 关于传递多值的问题 如何从recordset得到数据库的行号 用<%@ include file="xxx.jsp"%>出现的怪问题!求教 有关server.mappath()的问题 J2EE基础问题两三问,追加200分。 问题很简单,但我很急,请帮忙各位。 可用的UDDI 急救!自动隐藏Panel 帮忙 哪里有数据库系统开发的文档下载 急待解决的问题 请问从socket发信息,连续发送几个小数据包出错的情况!! 紧急问题,在线等待! 救命——存取违例 请问在VB中使用DAO控件怎样打开ACCESS数据库? 请问装vc6的sp5主要有什么作用啊 双网卡的局域网,如何让 CSocket 使用指定的网卡与另一电脑通讯? SQL删除不了相同的记录 JBuilder7中的中文问题 谁知道计算机的本地时间与系统时间有什么区别? 请问如何实现垂直显示文字?` JDOM高手看过来! 请问怎么在vb中调用纯c接口的api并实现多线程 如何实现任意长整数的运算? 程序移植,有多大的工作量??? 哪里有InstallShield Express的中文包D6自带的那个。 HELP ME! 请教:API中的数据类型与pb中的数据类型的对应关系 第一个进来给100分!哈哈,高兴!! 高分求翻译, 高手请进,就一句 TeeChart在那个组件栏中?我怎么找不到?(我是6.0的版本) 在哪里下载KPT7.0? 存储过程问题讨论!高手请进. 高人指点几行代码不难,只是我不懂 紧急问题,在线等待! 急问:在DROPDOWNLIST中如果只有一个下拉选择项怎么无法相应SelectedIndexChanged事件?该怎么做? 关于用DataGrid显示数据的问题 请高手相助 示例解析sqlDataAdapter中tablemappings的使用(在线给分)急!!! 律师称斯诺登已适应俄罗斯 危险度仍相美国一推销员晚间即“变身”木乃伊 获“窃听门”庭审曝哈里王子曾被窃听南京市民成“雾都孤儿” 环保局受访称美国一长约4米重达330公斤巨鳄被捕美军无人机空袭巴基斯坦超过20人死亡土库曼斯坦总统力推与中国开展能源合作超1/5东日本大地震复兴预算被用于与日媒称日本也是美国情报机构监控对象洛杉矶国际机场因枪击案关闭近7小时后超1/5东日本大地震复兴预算被用于与美国83岁珠宝大盗偷走2万美元戒指被美军无人机空袭巴基斯坦超过20人死亡袖珍王国中的金融帝国——列支敦士登的万圣节女王超模克鲁姆逼真扮老 全身老2013国际变性人选美决赛在泰国落幕美国83岁珠宝大盗偷走2万美元戒指被三起编造虚假恐怖信息威胁民航安全案件美国83岁珠宝大盗偷走2万美元戒指被惠誉上调西班牙国债评级展望土库曼斯坦总统力推与中国开展能源合作河南公务员写古文辞职信:陡增酒量 武董明珠:企业的生死与代言无关 应该看女子花31万买奔驰车 首次保养时发动郑州今天停暖 谁家暖气不够暖 可以着郑州街头水泥罐车与小型货车相撞 致一郑州大学自主招生80人 网上可以报名【两会声音】为防拐卖新生儿必须一律免张柏芝上节目谈离婚泪崩 称23岁时太以100家影院为样本,深扒《叶问3》航司打破“囚徒困境”,莫开历史的倒车这是俄罗斯著名摄影师MaxSauco看完马上就会玩 《皇室战争》完全小白公立医院改革莫以减轻财政负担为目的“小镇青年”拉低中国电影内在品质?别这货开的什么车!!咦?好面熟,我说的你是吃货吗?棉花糖和妹子选一个,你选【晨间阅读】虽然第四盘输给李世石,但对待网约车不能学“老欧洲”2016金湖国际半程马拉松将于5月1信 息 超 市■ 闫波简介
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘