欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > 文件内容课堂总结

文件内容课堂总结

2025/4/19 12:07:45 来源:https://blog.csdn.net/2301_79975534/article/details/147284716  浏览:    关键词:文件内容课堂总结

Spark-SQL连接Hive
Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可选择是否包含Hive支持。包含Hive支持的版本支持Hive表访问、UDF及HQL。生产环境推荐编译时引入Hive支持。
内嵌Hive
直接使用无需配置,但生产环境极少采用。
外部Hive
需完成以下配置:
将hive-site.xml拷贝至conf目录
修改数据库连接地址(如jdbc:mysql://node01:3306/myhive  )
拷贝MySQL驱动到jars目录
拷贝core-site.xml和hdfs-site.xml到conf目录
重启spark-shell
Spark Beeline
基于HiveServer2实现的Thrift服务,兼容HiveServer2协议:
配置hive-site.xml和MySQL驱动
启动Thrift Server
使用beeline连接:beeline -u jdbc:hive2://node01:10000   -n root
Spark-SQL CLI
类似Hive命令行工具:
拷贝MySQL驱动到jars目录
放置hive-site.xml到conf目录
执行bin/spark-sql启动
代码操作Hive
需添加依赖:
关键代码步骤:
设置HADOOP_USER_NAME解决权限问题
配置spark.sql.warehouse.dir指定仓库路径
通过SparkSession执行建库、查库等DDL操作
数据加载与保存
提供通用API支持多种数据格式,默认使用Parquet格式。
通用操作
加载数据:spark.read.format("格式").load("路径")
保存数据:df.write.format("格式").mode("模式").save("路径")
支持格式:csv/json/orc/parquet/textFile/jdbc
Parquet
默认数据源,支持嵌套数据存储
直接使用load/save方法操作
可配置spark.sql.sources.default修改默认格式
JSON
自动推断结构,要求每行为完整JSON
加载:spark.read.json("path")
创建临时表后执行SQL查询
MySQL
依赖mysql-connector-java
两种连接方式:
通过options配置参数
使用Properties对象设置连接属性
支持Append/Overwrite等保存模式 
CSV
配置选项:sep(分隔符)、header(表头)、inferSchema(自动推断类型)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词