spark读取parquet文件

2025/12/31 5:36:35 来源：https://blog.csdn.net/weixin_43839095/article/details/143161562 浏览: 次关键词：spark读取parquet文件

源码

parquet文件读取的入口是FileSourceScanExec，用parquet文件生成对应的RDD

非bucket文件所以走createNonBucketedReadRDD方法。

过程：

确定文件分割参数
1. openCostInBytes=4M 相关参数spark.sql.files.openCostInBytes=4M
2. maxSplitBytes<=128M 相关参数spark.sql.files.maxPartitionBytes=128M，根据maxSplitBytes计算得来
3. logInfo打印的日志可以用于排查参数
切分文件
1. splitFiles进行文件切分，按照maxSplitBytes将大文件切分
切分后文件根据大小进行倒排，为了方便后面合并
合并partition
1. getFilePartitions 将小文件合并到一个partition
生成RDD

defaultMaxSplitBytes 最大分区大小=spark.sql.files.maxPartitionBytes=128M
openCostInBytes 打开文件的代价默认4M
defaultParallelism 并行度conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 默认是core的总和，最小为2
totalBytes 文件总大小（单个文件大小需要加上openCostInBytes）
bytesPerCore 单个core分配的文件大小

最后Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))