跳至主要內容
《极客时间教程 - 大规模数据处理实战》笔记

《极客时间教程 - 大规模数据处理实战》笔记

00 丨开篇词丨从这里开始,带你走上硅谷一线系统架构师之路

01 丨为什么 MapReduce 会被硅谷一线公司淘汰?

高昂的维护成本

时间性能“达不到”用户的期待

02 | MapReduce 后谁主沉浮:怎样设计下一代数据处理技术?

03 | 大规模数据处理初体验:怎样实现大型电商热销榜?

不同量级 TOP K 算法的解决方案不同:

小规模:Hash 即可

大规模:由于单机的处理量不足以处理全量数据,势必分而治之:分片统计,然后聚合(即先 map 后 reduce)


钝悟...大约 5 分钟笔记大数据大数据
Flink Table API & SQL

Flink Table API & SQL

Apache Flink 有两种关系型 API 来做流批统一处理:Table API 和 SQL。Table API 是用于 Scala 和 Java 语言的查询 API,它可以用一种非常直观的方式来组合使用选取、过滤、join 等关系型算子。Flink SQL 是基于 Apache Calcite 来实现的标准 SQL。无论输入是连续的(流式)还是有界的(批处理),在两个接口中指定的查询都具有相同的语义,并指定相同的结果。


钝悟...大约 4 分钟大数据flink大数据Flink
Flink 运维

Flink 运维

docker 安装 flink

(1)使用 docker 命令拉取镜像

docker pull flink

钝悟...大约 3 分钟大数据flink大数据Flink运维
Flink 教程

Flink 教程

Apache Flink 是一个框架和分布式处理引擎,用于在无边界有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

📖 内容

Flink 入门


钝悟...小于 1 分钟大数据flink大数据Flink
Flink API

Flink API

Flink API 的分层

Flink 为流式/批式处理应用程序的开发提供了不同级别的抽象。

Programming levels of abstraction
Programming levels of abstraction

钝悟...大约 8 分钟大数据flink大数据Flink
Flink ETL

Flink ETL

Apache Flink 的一种常见应用场景是 ETL(抽取、转换、加载)管道任务。从一个或多个数据源获取数据,进行一些转换操作和信息补充,将结果存储起来。在这个教程中,我们将介绍如何使用 Flink 的 DataStream API 实现这类应用。

这里注意,Flink 的 Table 和 SQL API 完全可以满足很多 ETL 使用场景。但无论你最终是否直接使用 DataStream API,对这里介绍的基本知识有扎实的理解都是有价值的。


钝悟...大约 12 分钟大数据flink大数据FlinkETL
Flink 事件驱动

Flink 事件驱动

处理函数(Process Functions)

简介

ProcessFunction 将事件处理与 Timer,State 结合在一起,使其成为流处理应用的强大构建模块。 这是使用 Flink 创建事件驱动应用程序的基础。它和 RichFlatMapFunction 十分相似, 但是增加了 Timer。

示例

如果你已经体验了 流式分析训练动手实践, 你应该记得,它是采用 TumblingEventTimeWindow 来计算每个小时内每个司机的小费总和, 像下面的示例这样:


钝悟...大约 7 分钟大数据flink大数据Flink
2
3
4