Hive 数据查询详解
Hive 数据查询详解
数据准备
为了演示查询操作,这里需要预先创建三张表,并加载测试数据。
数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。
员工表
1 | -- 建表语句 |
部门表
1 | -- 建表语句 |
分区表
这里需要额外创建一张分区表,主要是为了演示分区查询:
1 | CREATE EXTERNAL TABLE emp_ptn( |
单表查询
SELECT
1 | -- 查询表中全部数据 |
WHERE
1 | -- 查询 10 号部门中员工编号大于 7782 的员工信息 |
DISTINCT
Hive 支持使用 DISTINCT 关键字去重。
1 | -- 查询所有工作类型 |
分区查询
分区查询 (Partition Based Queries),可以指定某个分区或者分区范围。
1 | -- 查询分区表中部门编号在[20,40]之间的员工 |
LIMIT
1 | -- 查询薪资最高的 5 名员工 |
GROUP BY
Hive 支持使用 GROUP BY 进行分组聚合操作。
1 | set hive.map.aggr=true; |
hive.map.aggr
控制程序如何进行聚合。默认值为 false。如果设置为 true,Hive 会在 map 阶段就执行一次聚合。这可以提高聚合效率,但需要消耗更多内存。
ORDER AND SORT
可以使用 ORDER BY 或者 Sort BY 对查询结果进行排序,排序字段可以是整型也可以是字符串:如果是整型,则按照大小排序;如果是字符串,则按照字典序排序。ORDER BY 和 SORT BY 的区别如下:
- 使用 ORDER BY 时会有一个 Reducer 对全部查询结果进行排序,可以保证数据的全局有序性;
- 使用 SORT BY 时只会在每个 Reducer 中进行排序,这可以保证每个 Reducer 的输出数据是有序的,但不能保证全局有序。
由于 ORDER BY 的时间可能很长,如果你设置了严格模式 (hive.mapred.mode = strict),则其后面必须再跟一个 limit
子句。
注 :hive.mapred.mode 默认值是 nonstrict ,也就是非严格模式。
1 | -- 查询员工工资,结果按照部门升序,按照工资降序排列 |
HAVING
可以使用 HAVING 对分组数据进行过滤。
1 | -- 查询工资总和大于 9000 的所有部门 |
DISTRIBUTE BY
默认情况下,MapReduce 程序会对 Map 输出结果的 Key 值进行散列,并均匀分发到所有 Reducer 上。如果想要把具有相同 Key 值的数据分发到同一个 Reducer 进行处理,这就需要使用 DISTRIBUTE BY 字句。
需要注意的是,DISTRIBUTE BY 虽然能保证具有相同 Key 值的数据分发到同一个 Reducer,但是不能保证数据在 Reducer 上是有序的。情况如下:
把以下 5 个数据发送到两个 Reducer 上进行处理:
1 | k1 |
Reducer1 得到如下乱序数据:
1 | k1 |
Reducer2 得到数据如下:
1 | k4 |
如果想让 Reducer 上的数据时有序的,可以结合 SORT BY
使用 (示例如下),或者使用下面我们将要介绍的 CLUSTER BY。
1 | -- 将数据按照部门分发到对应的 Reducer 上处理 |
CLUSTER BY
如果 SORT BY
和 DISTRIBUTE BY
指定的是相同字段,且 SORT BY 排序规则是 ASC,此时可以使用 CLUSTER BY
进行替换,同时 CLUSTER BY
可以保证数据在全局是有序的。
1 | SELECT empno, deptno, sal FROM emp CLUSTER BY deptno ; |
多表联结查询
Hive 支持内连接,外连接,左外连接,右外连接,笛卡尔连接,这和传统数据库中的概念是一致的,可以参见下图。
需要特别强调:JOIN 语句的关联条件必须用 ON 指定,不能用 WHERE 指定,否则就会先做笛卡尔积,再过滤,这会导致你得不到预期的结果 (下面的演示会有说明)。
INNER JOIN
1 | -- 查询员工编号为 7369 的员工的详细信息 |
LEFT OUTER JOIN
LEFT OUTER JOIN 和 LEFT JOIN 是等价的。
1 | -- 左连接 |
RIGHT OUTER JOIN
1 | --右连接 |
执行右连接后,由于 40 号部门下没有任何员工,所以此时员工信息为 NULL。这个查询可以很好的复述上面提到的——JOIN 语句的关联条件必须用 ON 指定,不能用 WHERE 指定。你可以把 ON 改成 WHERE,你会发现无论如何都查不出 40 号部门这条数据,因为笛卡尔运算不会有 (NULL, 40) 这种情况。
FULL OUTER JOIN
1 | SELECT e.*,d.* |
LEFT SEMI JOIN
LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。
- JOIN 子句中右边的表只能在 ON 子句中设置过滤条件;
- 查询结果只包含左边表的数据,所以只能 SELECT 左表中的列。
1 | -- 查询在纽约办公的所有员工信息 |
JOIN
笛卡尔积连接,这个连接日常的开发中可能很少遇到,且性能消耗比较大,基于这个原因,如果在严格模式下 (hive.mapred.mode = strict),Hive 会阻止用户执行此操作。
1 | SELECT * FROM emp JOIN dept; |
JOIN 优化
STREAMTABLE
在多表进行联结的时候,如果每个 ON 字句都使用到共同的列(如下面的 b.key
),此时 Hive 会进行优化,将多表 JOIN 在同一个 map / reduce 作业上进行。同时假定查询的最后一个表(如下面的 c 表)是最大的一个表,在对每行记录进行 JOIN 操作时,它将尝试将其他的表缓存起来,然后扫描最后那个表进行计算。因此用户需要保证查询的表的大小从左到右是依次增加的。
1 | `SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key) JOIN c ON (c.key = b.key)` |
然后,用户并非需要总是把最大的表放在查询语句的最后面,Hive 提供了 /*+ STREAMTABLE() */
标志,用于标识最大的表,示例如下:
1 | SELECT /*+ STREAMTABLE(d) */ e.*,d.* |
MAPJOIN
如果所有表中只有一张表是小表,那么 Hive 把这张小表加载到内存中。这时候程序会在 map 阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在 map 就进行了 JOIN 操作,从而可以省略 reduce 过程,这样效率可以提升很多。Hive 中提供了 /*+ MAPJOIN() */
来标记小表,示例如下:
1 | SELECT /*+ MAPJOIN(d) */ e.*,d.* |
SELECT 的其他用途
查看当前数据库:
1 | SELECT current_database() |
本地模式
在上面演示的语句中,大多数都会触发 MapReduce, 少部分不会触发,比如 select * from emp limit 5
就不会触发 MR,此时 Hive 只是简单的读取数据文件中的内容,然后格式化后进行输出。在需要执行 MapReduce 的查询中,你会发现执行时间可能会很长,这时候你可以选择开启本地模式。
1 | --本地模式默认关闭,需要手动开启此功能 |
启用后,Hive 将分析查询中每个 map-reduce 作业的大小,如果满足以下条件,则可以在本地运行它:
- 作业的总输入大小低于:hive.exec.mode.local.auto.inputbytes.max(默认为 128MB);
- map-tasks 的总数小于:hive.exec.mode.local.auto.tasks.max(默认为 4);
- 所需的 reduce 任务总数为 1 或 0。
因为我们测试的数据集很小,所以你再次去执行上面涉及 MR 操作的查询,你会发现速度会有显著的提升。