标签: 大数据

HBase 面试

HBase 简介

【简单】什么是 HBase？

要点

HBase 是一个构建在 HDFS（Hadoop 文件系统）之上的列式数据库。

HBase 是一种类似于 Google’s Big Table 的数据模型，它是 Hadoop 生态系统的一部分，它将数据存储在 HDFS 上，客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。

HBase 的核心特性如下：

分布式
- 伸缩性：支持通过增减机器进行水平扩展，以提升整体容量和性能
- 高可用：支持 RegionServers 之间的自动故障转移
- 自动分区：Region 分散在集群中，当行数增长的时候，Region 也会自动的分区再均衡
超大数据集：HBase 被设计用来读写超大规模的数据集（数十亿行至数百亿行的表）
支持结构化、半结构化和非结构化的数据：由于 HBase 基于 HDFS 构建，所以和 HDFS 一样，支持结构化、半结构化和非结构化的数据
非关系型数据库
- 不支持标准 SQL 语法
- 没有真正的索引
- 不支持复杂的事务：只支持行级事务，即单行数据的读写都是原子性的

HBase 的其他特性

读写操作遵循强一致性
过滤器支持谓词下推
易于使用的 Java 客户端 API
它支持线性和模块化可扩展性。
HBase 表支持 Hadoop MapReduce 作业的便捷基类
很容易使用 Java API 进行客户端访问
为实时查询提供块缓存 BlockCache 和布隆过滤器
它通过服务器端过滤器提供查询谓词下推

钝悟2025/3/4大约 13 分钟

Hive 面试

Hive 简介

【简单】什么是 Hive？

要点

Apache Hive 是一种分布式、容错数据仓库，支持大规模分析。Hive Metastore （HMS）提供了一个元数据的中央存储库，可以轻松分析以做出明智的数据驱动决策，因此它是许多数据湖架构的关键组件。Hive 构建在 Apache Hadoop 之上，并通过 hdfs 支持在 S3、adls、gs 等上进行存储。Hive 允许用户使用 SQL 读取、写入和管理 PB 级数据。

Hive 可以将结构化的数据文件映射成表，并提供类 SQL 查询功能。用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。

特点：

简单、容易上手（提供了类似 sql 的查询语言 hql），使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析；
灵活性高，可以自定义用户函数 (UDF) 和存储格式；
为超大的数据集设计的计算和存储能力，集群扩展容易；
统一的元数据管理，可与 presto／impala／sparksql 等共享数据；
执行延迟高，不适合做数据的实时处理，但适合做海量数据的离线处理。

钝悟2025/2/24大约 14 分钟

HBase Java API 管理功能

初始化 Admin 实例

Configuration conf = HBaseConfiguration.create();
Connection connection = ConnectionFactory.createConnection(conf);
Admin admin = connection.getAdmin();

钝悟2023/4/13大约 1 分钟

HBase Java API 其他高级特性

计数器

HBase 提供了一种高级功能：计数器（counter）。HBase 计数器可以用于实时统计，无需延时较高的批量处理操作。HBase 有一种机制可以将列当作计数器：即读取并修改（其实就是一种 CAS 模式），其保证了在一次操作中的原子性。否则，用户需要对一行数据加锁，然后读取数据，再对当前数据做加法，最后写回 HBase 并释放行锁，这一系列操作会引起大量的资源竞争问题。

早期的 HBase 版本会在每次计数器更新操作调用一次 RPC 请求，新版本中可以在一次 RPC 请求中完成多个计数器的更新操作，但是多个计数器必须在同一行。

钝悟2023/3/31大约 4 分钟

HBase 数据模型

HBase 是一个面向 列 的数据库管理系统，这里更为确切的而说，HBase 是一个面向 列族 的数据库管理系统。表 schema 仅定义列族，表具有多个列族，每个列族可以包含任意数量的列，列由多个单元格（cell）组成，单元格可以存储多个版本的数据，多个版本数据以时间戳进行区分。

HBase 逻辑存储结构

Table：Table 由 Row 和 Column 组成。
Row：Row 是列族（Column Family）的集合。
Row Key：Row Key 是用来检索记录的主键。
- Row Key 是未解释的字节数组，所以理论上，任何数据都可以通过序列化表示成字符串或二进制，从而存为 HBase 的键值。
- 表中的行，是按照 Row Key 的字典序进行排序。这里需要注意以下两点：
  - 因为字典序对 Int 排序的结果是 1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。如果你使用整型的字符串作为行键，那么为了保持整型的自然序，行键必须用 0 作左填充。
  - 行的一次读写操作是原子性的 (不论一次读写多少列)。
- 所有对表的访问都要通过 Row Key，有以下三种方式：
  - 通过指定的 Row Key 进行访问；
  - 通过 Row Key 的 range 进行访问，即访问指定范围内的行；
  - 进行全表扫描。
Column Family：即列族。HBase 表中的每个列，都归属于某个列族。列族是表的 Schema 的一部分，所以列族需要在创建表时进行定义。
- 一个表的列族必须作为表模式定义的一部分预先给出，但是新的列族成员可以随后按需加入。
- 同一个列族的所有成员具有相同的前缀，例如 info:format，info:geo 都属于 info 这个列族。
Column Qualifier：列限定符。可以理解为是具体的列名，例如 info:format，info:geo 都属于 info 这个列族，它们的列限定符分别是 format 和 geo。列族和列限定符之间始终以冒号分隔。需要注意的是列限定符不是表 Schema 的一部分，你可以在插入数据的过程中动态创建列。
Column：HBase 中的列由列族和列限定符组成，由 :(冒号) 进行分隔，即一个完整的列名应该表述为 列族名：列限定符。
Cell：Cell 是行，列族和列限定符的组合，并包含值和时间戳。HBase 中通过 row key 和 column 确定的为一个存储单元称为 Cell，你可以等价理解为关系型数据库中由指定行和指定列确定的一个单元格，但不同的是 HBase 中的一个单元格是由多个版本的数据组成的，每个版本的数据用时间戳进行区分。
- Cell 由行和列的坐标交叉决定，是有版本的。默认情况下，版本号是自动分配的，为 HBase 插入 Cell 时的时间戳。Cell 的内容是未解释的字节数组。
Timestamp：Cell 的版本通过时间戳来索引，时间戳的类型是 64 位整型，时间戳可以由 HBase 在数据写入时自动赋值，也可以由客户显式指定。每个 Cell 中，不同版本的数据按照时间戳倒序排列，即最新的数据排在最前面。

钝悟2023/3/16大约 5 分钟

HBase Java API 高级特性之协处理器

简述

在使用 HBase 时，如果你的数据量达到了数十亿行或数百万列，此时能否在查询中返回大量数据将受制于网络的带宽，即便网络状况允许，但是客户端的计算处理也未必能够满足要求。在这种情况下，协处理器（Coprocessors）应运而生。它允许你将业务计算代码放入在 RegionServer 的协处理器中，将处理好的数据再返回给客户端，这可以极大地降低需要传输的数据量，从而获得性能上的提升。同时协处理器也允许用户扩展实现 HBase 目前所不具备的功能，如权限校验、二级索引、完整性约束等。

参考资料

钝悟2023/3/16小于 1 分钟

HBase Java API 高级特性之过滤器

HBase 中两种主要的数据读取方法是 get() 和 scan()，它们都支持直接访问数据和通过指定起止 row key 访问数据。此外，可以指定列族、列、时间戳和版本号来进行条件查询。它们的缺点是不支持细粒度的筛选功能。为了弥补这种不足，Get 和 Scan 支持通过过滤器（Filter）对 row key、列或列值进行过滤。

HBase 提供了一些内置过滤器，也允许用户通过继承 Filter 类来自定义过滤器。所有的过滤器都在服务端生效，称为 谓词下推。这样可以保证被过滤掉的数据不会被传到客户端。

钝悟2023/3/16大约 9 分钟

HBase Java API 基础特性

HBase Client API

HBase Java API 示例

引入依赖

<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase-client</artifactId>
    <version>2.1.4</version>
</dependency>

钝悟2023/3/15大约 10 分钟

HBase Schema 设计

HBase Schema 设计要素

这个表应该有多少 Column Family
Column Family 使用什么数据
每个 Column Family 有有多少列
列名是什么，尽管列名不必在建表时定义，但读写数据是要知道的
单元应该存放什么数据
每个单元存储多少时间版本
行健(rowKey)结构是什么，应该包含什么信息

Row Key 设计

Row Key 的作用

在 HBase 中，所有对表的访问都要通过 Row Key，有三种访问方式：

钝悟2023/3/15大约 9 分钟

《极客时间教程 - 大规模数据处理实战》笔记

00 丨开篇词丨从这里开始，带你走上硅谷一线系统架构师之路

01 丨为什么 MapReduce 会被硅谷一线公司淘汰？

高昂的维护成本

时间性能“达不到”用户的期待

02 | MapReduce 后谁主沉浮：怎样设计下一代数据处理技术？

03 | 大规模数据处理初体验：怎样实现大型电商热销榜？

不同量级 TOP K 算法的解决方案不同：

小规模：Hash 即可

大规模：由于单机的处理量不足以处理全量数据，势必分而治之：分片统计，然后聚合（即先 map 后 reduce）

钝悟2023/3/15大约 5 分钟