...小于 1 分钟
- Java207
- 编程14
- 设计79
- DevOps8
- 数据结构和算法17
- 数据库106
- 网络19
- 分布式75
- 大数据31
- 其他15
- spark1
- 软件工程3
- 工作8
- 笔记49
- JavaCore64
- JavaEE15
- 软件20
- 工具37
- 框架68
- 中间件9
- 编程范式4
- 编程语言3
- Python6
- 架构31
- 设计模式27
- 重构7
- DDD2
- UML4
- 综合20
- 监控2
- 线性表4
- 树6
- 数据库综合3
- 数据库中间件4
- 关系型数据库18
- 文档数据库11
- KV数据库19
- 列式数据库14
- 搜索引擎数据库23
- 网络综合8
- 网络协议6
- 网络技术4
- 操作系统13
- 操作系统应用2
- 分布式综合15
- 分布式协同17
- 分布式调度7
- 分布式通信27
- 分布式存储8
- flink9
- hadoop5
- hive8
- 人工智能1
- 基础特性18
- 高级特性7
- 容器7
- IO9
- 并发11
- JVM9
- 面试11
- JavaWeb6
- 服务器8
- 构建9
- IDE4
- 监控诊断6
- JavaBean2
- 模板引擎4
- 测试5
- Spring61
- ORM3
- 安全8
- 缓存5
- 流量控制2
- 微服务5
- 解决方案8
- Git3
- Shardingsphere2
- Mysql10
- MongoDB10
- Redis17
- HBase12
- Elasticsearch14
- Elastic8
- Linux11
- 命令1
- 分布式协同综合10
- ZooKeeper6
- RPC3
- MQ17
- 效能6
- 方法论2
- 规范3
- Tomcat6
- Maven7
- Spring综合5
- Spring核心24
- Spring数据10
- SpringWeb8
- SpringIO4
- Spring集成4
- Spring安全1
- Spring其他4
- MQ综合1
- Kafka10
- RocketMQ4
- 其他MQ1
MapReduce
MapReduce 简介
MapReduce 是 Hadoop 项目中的分布式计算框架。它降低了分布式计算的门槛,可以让用户轻松编写程序,让其以可靠、容错的方式运行在大型集群上并行处理海量数据(TB 级)。
MapReduce 的设计思路是:
- 分而治之,并行计算
- 移动计算,而非移动数据
MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map
任务以并行的方式处理。框架对 map
的输出进行排序,然后将其输入到 reduce
任务中。作业的输入和输出都存储在文件系统中。该框架负责调度任务、监控任务并重新执行失败的任务。
...大约 5 分钟
HDFS 应用
HDFS 是 Hadoop Distributed File System 的缩写,即 Hadoop 的分布式文件系统。
HDFS 是一种用于存储具有流数据访问模式的超大文件的文件系统,它运行在廉价的机器集群上。
HDFS 的设计目标是管理数以千计的服务器、数以万计的磁盘,将这么大规模的服务器计算资源当作一个单一的存储系统进行管理,对应用程序提供 PB 级的存储容量,让应用程序像使用普通文件系统一样存储大规模的文件数据。
...大约 8 分钟
Hadoop 面试
简介
【初级】简介一下大数据技术生态?
要点
- 数据采集:Flume、Sqoop、Logstash、Filebeat
- 分布式文件存储:Hadoop HDFS
- NoSql
- 文档数据库:Mongodb
- 列式数据库:HBase
- 搜索引擎:Solr、Elasticsearch
- 分布式计算
- 批处理:Hadoop MapReduce
- 流处理:Storm、Kafka
- 混合处理:Spark、Flink
- 查询分析:Hive、Spark SQL、Flink SQL、Pig、Phoenix
- 集群资源管理:Hadoop YARN
- 分布式协调:Zookeeper
- 任务调度:Azkaban、Oozie
- 集群部署和监控:Ambari、Cloudera Manager

...大约 40 分钟
YARN
YARN 简介
Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。

...大约 5 分钟