标签: Hadoop

📖 内容

钝悟2020/9/9小于 1 分钟

MapReduce 是 Hadoop 项目中的分布式计算框架。它降低了分布式计算的门槛，可以让用户轻松编写程序，让其以可靠、容错的方式运行在大型集群上并行处理海量数据（TB 级）。

MapReduce 的设计思路是：

MapReduce 作业通过将输入的数据集拆分为独立的块，这些块由 map 任务以并行的方式处理。框架对 map 的输出进行排序，然后将其输入到 reduce 任务中。作业的输入和输出都存储在文件系统中。该框架负责调度任务、监控任务并重新执行失败的任务。

钝悟2020/6/22大约 5 分钟

HDFS 是 Hadoop Distributed File System 的缩写，即 Hadoop 的分布式文件系统。

HDFS 是一种用于存储具有流数据访问模式的超大文件的文件系统，它运行在廉价的机器集群上。

HDFS 的设计目标是管理数以千计的服务器、数以万计的磁盘，将这么大规模的服务器计算资源当作一个单一的存储系统进行管理，对应用程序提供 PB 级的存储容量，让应用程序像使用普通文件系统一样存储大规模的文件数据。

钝悟2020/2/24大约 8 分钟

要点

数据采集：Flume、Sqoop、Logstash、Filebeat
分布式文件存储：Hadoop HDFS
NoSql
- 文档数据库：Mongodb
- 列式数据库：HBase
- 搜索引擎：Solr、Elasticsearch
分布式计算
- 批处理：Hadoop MapReduce
- 流处理：Storm、Kafka
- 混合处理：Spark、Flink
查询分析：Hive、Spark SQL、Flink SQL、Pig、Phoenix
集群资源管理：Hadoop YARN
分布式协调：Zookeeper
任务调度：Azkaban、Oozie
集群部署和监控：Ambari、Cloudera Manager

钝悟2020/2/24大约 40 分钟

Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。

钝悟2019/5/7大约 5 分钟