说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

什么是Hadoop以及与云计算的关系

HTML文档下载 WORD文档下载 PDF文档下载
Hadoop是Apache 基金会下的一款开源软件,它实现了包括分布式文件系统和 MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。

Hadoop是Apache 基金会下的一款开源软件,它实现了包括分布式文件系统和 MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。

 

Hadoop作为云系统中的一种,它具备了很强的存储扩展(目前仍受限于master节点能力)和受限的计算扩展(主要是对数据的均衡性处理还不够)。

我们可以将Hadoop虚拟化,对外提供一个统一的存储和计算平台。

 

Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。

 

基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其"云计算"环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。亚马逊公司则基于Hadoop推出了Amazon S3(Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务。

 

Hadoop中的HDFS+MapReduce是目前一个不错的分布式存储和计算解决方案,面向的是数据集中式的大规模数据处理,但目前的HDFS还不能独立出来做一个云存储系统,还有不少局限性。云计算面临的主要是海量的低数据量服务请求,这些请求的数据都是需要在大量基础数据上经过挖掘处理才得出来的,我觉得Hadoop目前是做这个的。当然Hadoop中的子项目HBase正在逐渐提升性能,不久的将来,用它来做一个高性能的,可扩展的分布式数据库也是不错的,它的不少特性都特别适用于互联网的应用。

随着Hadoop的发展,以后它能做的事将更多。

备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘