大数据学习（84）-Hive数仓

🍋🍋大数据学习🍋🍋

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

1、什么是Hive？

Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具，通过HiveQL可以快速实现简单的MapReduce统计。

Hive的本质就是将HiveQL语句转换为MapReduce任务后运行，非常适合做数据仓库的数据分析。

2、Hive的应用场景

Hive构建在Hadoop文件系统之上，Hive不提供实时的查询和基于行级的数据更新操作，不适合需要低延迟的应用，如联机事务处理（On-line Transaction Processing，OLTP）相关应用。

Hive适用于联机分析处理（On-Line Analytical Processing，OLAP），应用场景如图所示：

3、Hive的特性

Hive作为数据仓库软件，使用类SQL的HiveQL语言实现数据查询，所有Hive数据均存储在Hadoop文件系统中，Hive具有以下特性。

1）使用HiveQL以类SQL查询的方式轻松访问数据，将HiveQL查询转换为MapReduce的任务在Hadoop集群上执行，完成ETL（Extract、Transform、Load，提取、转换、加载）、报表、数据分析等数据仓库任务。HiveQL内置大量UDF（User Defined Function）来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。

2）多种文件格式的元数据服务，包括TextFile、SequenceFile、RCFile和ORCFile，其中TextFile为默认格式，创建SequenceFile、RCFile和ORCFile格式的表需要先将文件数据导入到TextFile格式的表中，然后再把TextFile表的数据导入SequenceFile、RCFile和ORCFile表中。

3）直接访问HDFS文件或其他数据存储系统（如HBase）中的文件。 ·

4）支持MapReduce、Tez、Spark等多种计算引擎，可根据不同的数据处理场景选择合适的计算引擎。

5）支持HPL/SQL程序语言，HPL/SQL是一种混合异构的语言，可以理解几乎任何现有的过程性SQL语言（如Oracle PL/SQL、Transact-SQL）的语法和语义，有助于将传统数据仓库的业务逻辑迁移到Hadoop上，是在Hadoop中实现ETL流程的有效方式。

6）可以通过HiveLLAP（Live Long and Process）、Apache YARN和Apache Slider（动态YARN应用，可按需动态调整分布式应用程序的资源）进行秒级的查询检索。LLAP结合了持久查询服务器和优化的内存缓存，使Hive能够立即启动查询，避免不必要的磁盘开销，提供较佳的查询检索效率。

4、Hive与传统数据仓库的区别

Hive是用于查询分布式大型数据集的数据仓库，相比于传统数据仓库，在大数据的查询上有其独特的优势，但同时也牺牲了一部分性能，如下图：

5、Hive的数据存储模型

Hive主要包括三类数据模型：表（Table）、分区（Partition）和桶（Bucket）。

Hive中的表类似于关系数据库中的表。表可以进行过滤、投影、连接和联合等操作。表的数据一般存储在HDFS的目录中，Hive的表实质上对应Hadoop文件系统上的一个目录。Hive将表的元数据存储在关系型数据库中，实现了元数据与数据的分离存储。

Hive根据分区列（Partition Column）的值将表以分区的形式进行划分，例如具有“日期”分区列的表可以根据日期划分为多个分区。表中的一个分区对应表所在目录下的一个子目录。

1）Hive的分区和分桶

Hive将数据组织成数据库表的形式供用户进行较高效的查询分析。Hive处理的数据集一般较大，为了提高查询的效率，Hive会在表的基础上进一步对数据的划分进行细化。

当表数据量较大时，Hive通过列值（如日期、地区等）对表进行分区处理（Partition），便于局部数据的查询操作。每个分区是一个目录，将相同属性的数据放在同个目录下，可提高查询效率。分区数量不固定，分区下可再有分区或者进一步细化为桶。

Hive可将表或分区进一步组织成桶，桶是比分区粒度更细的数据划分方式。每个桶是一个文件，用户可指定划分桶的个数。在分桶的过程中，Hive针对某一列进行哈希计算，根据哈希值将这一列中的数据划分到不同的桶中。分桶为表提供了额外的结构，Hive在处理某些查询（如join、表的合并）时利用这个结构可以提高效率，使数据抽样更高效。

2）Hive的托管表和外部表

Hive中的表分为两种，分别为托管表和外部表，托管表又称为内部表。Hive默认创建托管表，托管表由Hive来管理数据，意味着Hive会将数据移动到数据仓库的目录中。若创建外部表，Hive仅记录数据所在路径，不将其移动到数据仓库目录中。在读取外部表时，Hive会在数据仓库之外读取数据。在做删除表的操作时，托管表的元数据和数据会被一起删除，而外部表仅删除元数据，处于数据仓库外部的数据则被保留。外部表相对于托管表要更为安全，也利于数据的共享。

选择使用外部表还是托管表组织数据取决于用户对数据的处理方式，如果一个数据集的数据处理操作都由Hive完成，则使用托管表；当需要使用桶时，则必须使用托管表。如果需要用Hive和其他工具一起处理同一个数据集，或者需要将同一个数据集组织成不同的表，则使用外部表。