Hadoop技术体系的示例分析

这篇文章主要介绍了Hadoop技术体系的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

创新互联建站专注于吴起网站建设服务及定制，我们拥有丰富的企业做网站经验。热诚为您提供吴起营销型网站建设，吴起网站制作、吴起网页设计、吴起网站官网定制、重庆小程序开发公司服务，打造吴起网络公司原创品牌,更为您提供吴起网站排名全网营销落地服务。

Hadoop的两大核心就是HDFS和MapReduce，而整个Hadoop的体系结构主要是通过HDFS的分布式存储作为底层数据支持的。并且会通过MapReduce来进行计算分析。

Hadoop1.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

Hadoop2.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

4. Hadoop YARN

Hadoop1.x生态系统：

Hadoop技术体系的示例分析

Hadoop2.x生态系统图：

Hadoop技术体系的示例分析

那么我们从理解的角度来看，自底而上，分别是数据存储，数据整合管理，数据计算，数据挖掘处理这么几个过程。而各层之间贯穿着ETL和日志收集工具。这就是Hadoop粗略的一个知识架构。下面我们一个个的来看，整个Hadoop的技术生态体系板块是怎样的。

1. HDFS

分布式文件系统，将一个文件分成多个块，分别存储(拷贝)到不同的节点上.它是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。提供了hadoop运算过程中的数据存储、数据备份、数据错误校验等功能。

2. MapReduce

分布式计算框架，它是一种分布式计算处理模型和执行环境，用于进行大数据量的计算。共包括Map和Reduce部分。其中Map接受一个键值对（key-value），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

3. hive

基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类似SQL一样的查询语言HiveQL来管理这些数据。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

4. Pig

Pig是一个基于Hadoop的大数据分析平台，它提供了一个叫PigLatin的高级语言来表达大数据分析程序，将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

5. Mahoutt

数据挖掘算法库，Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

6. ZooKeeper

分布式协作服务，是一个针对大型分布式系统的可靠协调系统，提供包括配置维护，名字服务，分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper

7. HBase

HBase是一个分布式列存数据库，它基于Hadoop之上提供了类似BigTable的功能。HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

8. Sqoop

数据同步工具，SQL-to-Hadoop的缩写。Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中，也可将HDFS中的数据导进到关系型数据库中主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

9. Flume

日志收集工具，Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

10. Ambari

是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS，MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop等组件。

11.Apache Spark

Apache Spark是提供大数据集上快速进行数据分析的计算引擎。它建立在HDFS之上，却绕过了MapReduce使用自己的数据处理框架。Spark常用于实时查询、流处理、迭代算法、复杂操作运算和机器学习。

感谢你能够认真阅读完这篇文章，希望小编分享的“Hadoop技术体系的示例分析”这篇文章对大家有帮助，同时也希望大家多多支持创新互联，关注创新互联行业资讯频道，更多相关知识等着你来学习!

当前题目：Hadoop技术体系的示例分析
标题来源：http://chengdu.cdxwcx.cn/article/igsish.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Hadoop技术体系的示例分析

Hadoop1.x的核心：

Hadoop2.x的核心：

Hadoop1.x生态系统：

Hadoop2.x生态系统图：

1. HDFS

2. MapReduce

3. hive

4. Pig

5. Mahoutt

6. ZooKeeper

7. HBase

8. Sqoop

9. Flume

10. Ambari

11.Apache Spark

其他资讯

使用MySQL和Tomcat构建Web应用程序的指南

虚拟主机环境怎么搭建的

我想买空间域名和服务器，在哪里购买好？(怎么买空间域名账号)

VisualStudio2010跳票性能仍需改进

被禁止了的网站怎么设置恢复啊？(爱名网域名注册)

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Hadoop技术体系的示例分析

Hadoop1.x的核心：

Hadoop2.x的核心：

Hadoop1.x生态系统：

Hadoop2.x生态系统图：

1. HDFS

2. MapReduce

3. hive

4. Pig

5. Mahoutt

6. ZooKeeper

7. HBase

8. Sqoop

9. Flume

10. Ambari

11.Apache Spark

其他资讯

使用MySQL和Tomcat构建Web应用程序的指南

虚拟主机环境怎么搭建的

我想买空间域名和服务器，在哪里购买好？(怎么买空间域名账号)

VisualStudio2010跳票性能仍需改进

被禁止了的网站怎么设置恢复啊？(爱名网域名注册)

成都网站建设设计将想法与焦点和您一起共享