跳至主要內容
MapReduce

MapReduce

MapReduce 简介

MapReduce 是 Hadoop 项目中的分布式计算框架。它降低了分布式计算的门槛,可以让用户轻松编写程序,让其以可靠、容错的方式运行在大型集群上并行处理海量数据(TB 级)。

MapReduce 的设计思路是:

  • 分而治之,并行计算
  • 移动计算,而非移动数据

MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 任务以并行的方式处理。框架对 map 的输出进行排序,然后将其输入到 reduce 任务中。作业的输入和输出都存储在文件系统中。该框架负责调度任务、监控任务并重新执行失败的任务。


钝悟...大约 5 分钟大数据hadoop大数据hadoopmapreduce
HDFS 应用

HDFS 应用

HDFSHadoop Distributed File System 的缩写,即 Hadoop 的分布式文件系统。

HDFS 是一种用于存储具有流数据访问模式的超大文件的文件系统,它运行在廉价的机器集群上。

HDFS 的设计目标是管理数以千计的服务器、数以万计的磁盘,将这么大规模的服务器计算资源当作一个单一的存储系统进行管理,对应用程序提供 PB 级的存储容量,让应用程序像使用普通文件系统一样存储大规模的文件数据。


钝悟...大约 8 分钟大数据hadoop大数据hadoophdfs
Hadoop 面试

Hadoop 面试

简介

【初级】简介一下大数据技术生态?

要点
  • 数据采集:Flume、Sqoop、Logstash、Filebeat
  • 分布式文件存储:Hadoop HDFS
  • NoSql
    • 文档数据库:Mongodb
    • 列式数据库:HBase
    • 搜索引擎:Solr、Elasticsearch
  • 分布式计算
    • 批处理:Hadoop MapReduce
    • 流处理:Storm、Kafka
    • 混合处理:Spark、Flink
  • 查询分析:Hive、Spark SQL、Flink SQL、Pig、Phoenix
  • 集群资源管理:Hadoop YARN
  • 分布式协调:Zookeeper
  • 任务调度:Azkaban、Oozie
  • 集群部署和监控:Ambari、Cloudera Manager

钝悟...大约 40 分钟大数据hadoop大数据hadoophdfsyarnmapreduce
YARN

YARN

YARN 简介

Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。


钝悟...大约 5 分钟大数据hadoop大数据hadoopyarn