跳至主要內容
MapReduce

MapReduce

MapReduce 简介

MapReduce 是 Hadoop 项目中的分布式计算框架。它降低了分布式计算的门槛,可以让用户轻松编写程序,让其以可靠、容错的方式运行在大型集群上并行处理海量数据(TB 级)。

MapReduce 的设计思路是:

  • 分而治之,并行计算
  • 移动计算,而非移动数据

MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 任务以并行的方式处理。框架对 map 的输出进行排序,然后将其输入到 reduce 任务中。作业的输入和输出都存储在文件系统中。该框架负责调度任务、监控任务并重新执行失败的任务。


钝悟...大约 5 分钟大数据hadoop大数据hadoopmapreduce
Hadoop 面试

Hadoop 面试

简介

【初级】简介一下大数据技术生态?

要点
  • 数据采集:Flume、Sqoop、Logstash、Filebeat
  • 分布式文件存储:Hadoop HDFS
  • NoSql
    • 文档数据库:Mongodb
    • 列式数据库:HBase
    • 搜索引擎:Solr、Elasticsearch
  • 分布式计算
    • 批处理:Hadoop MapReduce
    • 流处理:Storm、Kafka
    • 混合处理:Spark、Flink
  • 查询分析:Hive、Spark SQL、Flink SQL、Pig、Phoenix
  • 集群资源管理:Hadoop YARN
  • 分布式协调:Zookeeper
  • 任务调度:Azkaban、Oozie
  • 集群部署和监控:Ambari、Cloudera Manager

钝悟...大约 40 分钟大数据hadoop大数据hadoophdfsyarnmapreduce