欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 科技 > IT业 > 大数据之HIVE，一次HIVESQL执行的过程（四）

大数据之HIVE，一次HIVESQL执行的过程（四）

2026/3/22 17:28:31 来源：https://blog.csdn.net/wb_zjp283121/article/details/139352953 浏览: 次关键词：大数据之HIVE，一次HIVESQL执行的过程（四）

在hive中执行如下sql

INSERT OVERWRITE TABLE XXX
SELECT * from XXX

数据最终是怎么存储到hdfs上的过程

执行的过程当中,打印出如下的日志过程,本质上是一个在MapReduce中进行Shuffle的过程

所以下面就Shuffle的过程进行分析

Shuffle 描述的是数据从 Map 端到 Reduce 端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程，大体流程如下：

上图的 Map 的输出的文件被分片为红绿蓝三个分片，这个分片的就是根据 Key 为条件来分片的，分片算法可以自己实现，例如 Hash、Range 等，最终 Reduce 任务只拉取对应颜色的数据来进行处理，就实现把相同的 Key 拉取到相同的 Reduce 节点处理的功能。下面分开来说 Shuffle 的的各个过程。

注意:

sqoop import实际上是把数据存放到hdfs对应路径上了，而不是“直接导入表里”，
查询时，hive会从hdfs的路径上提取数据，再根据hive表的结构和定义，来向我们展示出类似表格的形式。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词