Spark-SQL核心编程

2025/4/30 0:05:13 来源：https://blog.csdn.net/2501_90098537/article/details/147287809 浏览: 次关键词：Spark-SQL核心编程

数据加载与保存：

1. 加载数据的方法

通过选项加载：传入URL地址、用户名、密码和数据表名称等参数。

通过路径加载：传入加载数据的路径和类型，使用可选参数。

通过MySQL语句加载：直接导入MySQL语句来加载数据。

2. 保存数据的方法

通用方法：使用df.write方法保存数据。

设定格式和选项：指定保存的数据类型、选项和路径。

保存模式：使用mode方法设置保存模式（追加、错误、覆盖、忽略）。

数据源格式

默认数据源格式：Spark SQL的默认数据源格式，能够存储嵌套数据，方便执行所有操作。

JSON数据：Spark SQL可以自动检测JSON数据集的结构，并加载为DataFrame。

CSV数据：配置CSV文件的列表信息，读取CSV文件的第一行作为数据列信息。

MySQL数据：通过JDBC从关系型数据库读取数据，创建DataFrame，并可以将数据写回数据库。

具体操作步骤

1. 导入依赖

确保Spark和MySQL的版本号一致。

2. 读取数据

第一种方式：使用option参数传入URL、驱动、用户名、密码和表名。

第二种方式：在URL中融合用户名和密码，使用`options`参数。

第三种方式：使用spark.read.jdbc方法，传入JDBC路径、用户名和密码。

3. 写入数据

创建RDD并转换为DataFrame格式。

使用mode参数设置保存模式（追加、错误、覆盖、忽略）。

关闭Spark。

Spark-SQL连接Hive

1.把hive-site.xml core-site.xml 和 hdfs-site.xml拷贝到conf下

2.把 MySQL 的驱动 copy 到 jars/目录下

3.验证是否连接成功

spark.sql("show databases").show()

spark.sql("show tables").show()

4.运行Spark-SQL CLI

输入spark-sql

输入SHOW DATABASES;验证是否启动成功

相关资讯