大数据 分类

Hive 简介

【简单】什么是 Hive？

要点

Apache Hive 是一种分布式、容错数据仓库，支持大规模分析。Hive Metastore （HMS）提供了一个元数据的中央存储库，可以轻松分析以做出明智的数据驱动决策，因此它是许多数据湖架构的关键组件。Hive 构建在 Apache Hadoop 之上，并通过 hdfs 支持在 S3、adls、gs 等上进行存储。Hive 允许用户使用 SQL 读取、写入和管理 PB 级数据。

Hive 可以将结构化的数据文件映射成表，并提供类 SQL 查询功能。用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。

特点：

简单、容易上手（提供了类似 sql 的查询语言 hql），使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析；
灵活性高，可以自定义用户函数 (UDF) 和存储格式；
为超大的数据集设计的计算和存储能力，集群扩展容易；
统一的元数据管理，可与 presto／impala／sparksql 等共享数据；
执行延迟高，不适合做数据的实时处理，但适合做海量数据的离线处理。

钝悟2025/2/24大约 14 分钟

《极客时间教程 - 大规模数据处理实战》笔记

00 丨开篇词丨从这里开始，带你走上硅谷一线系统架构师之路

01 丨为什么 MapReduce 会被硅谷一线公司淘汰？

高昂的维护成本

时间性能“达不到”用户的期待

02 | MapReduce 后谁主沉浮：怎样设计下一代数据处理技术？

03 | 大规模数据处理初体验：怎样实现大型电商热销榜？

不同量级 TOP K 算法的解决方案不同：

小规模：Hash 即可

大规模：由于单机的处理量不足以处理全量数据，势必分而治之：分片统计，然后聚合（即先 map 后 reduce）

钝悟2023/3/15大约 5 分钟

《极客时间教程 - 从 0 开始学大数据》笔记

预习模块

01 丨预习 01 丨大数据技术发展史：大数据的前世今生

大数据技术，起源于 Google 在 2004 年前后发表的三篇论文：

钝悟2023/3/13大约 28 分钟

大数据

钝悟2023/2/10大约 3 分钟

大数据综合

📖 内容

钝悟2023/2/10小于 1 分钟

Flink Table API & SQL

Apache Flink 有两种关系型 API 来做流批统一处理：Table API 和 SQL。Table API 是用于 Scala 和 Java 语言的查询 API，它可以用一种非常直观的方式来组合使用选取、过滤、join 等关系型算子。Flink SQL 是基于 Apache Calcite 来实现的标准 SQL。无论输入是连续的（流式）还是有界的（批处理），在两个接口中指定的查询都具有相同的语义，并指定相同的结果。