...小于 1 分钟
MapReduce
MapReduce 简介
MapReduce 是 Hadoop 项目中的分布式计算框架。它降低了分布式计算的门槛,可以让用户轻松编写程序,让其以可靠、容错的方式运行在大型集群上并行处理海量数据(TB 级)。
MapReduce 的设计思路是:
- 分而治之,并行计算
- 移动计算,而非移动数据
MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map
任务以并行的方式处理。框架对 map
的输出进行排序,然后将其输入到 reduce
任务中。作业的输入和输出都存储在文件系统中。该框架负责调度任务、监控任务并重新执行失败的任务。
...大约 5 分钟
HDFS 应用
HDFS 是 Hadoop Distributed File System 的缩写,即 Hadoop 的分布式文件系统。
HDFS 是一种用于存储具有流数据访问模式的超大文件的文件系统,它运行在廉价的机器集群上。
HDFS 的设计目标是管理数以千计的服务器、数以万计的磁盘,将这么大规模的服务器计算资源当作一个单一的存储系统进行管理,对应用程序提供 PB 级的存储容量,让应用程序像使用普通文件系统一样存储大规模的文件数据。
...大约 8 分钟
Hadoop 面试
简介
【初级】简介一下大数据技术生态?
要点
- 数据采集:Flume、Sqoop、Logstash、Filebeat
- 分布式文件存储:Hadoop HDFS
- NoSql
- 文档数据库:Mongodb
- 列式数据库:HBase
- 搜索引擎:Solr、Elasticsearch
- 分布式计算
- 批处理:Hadoop MapReduce
- 流处理:Storm、Kafka
- 混合处理:Spark、Flink
- 查询分析:Hive、Spark SQL、Flink SQL、Pig、Phoenix
- 集群资源管理:Hadoop YARN
- 分布式协调:Zookeeper
- 任务调度:Azkaban、Oozie
- 集群部署和监控:Ambari、Cloudera Manager

...大约 40 分钟
YARN
YARN 简介
Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。

...大约 5 分钟