欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 高考 > 【Python进阶——分布式计算框架pyspark】

【Python进阶——分布式计算框架pyspark】

2025/1/19 18:57:20 来源:https://blog.csdn.net/m0_59385870/article/details/145120563  浏览:    关键词:【Python进阶——分布式计算框架pyspark】

在这里插入图片描述
Apache Spark是用于大规模数据处理的统一分析引擎
简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据,Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。
而Python语言,则是Spark重点支持的方向。
Spark对Python语言的支持,重点体现在,Python第三方库PySpark之上。
PySpark是由Spark官方开发的Python语言第三方库。可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

在这里插入图片描述

在这里插入图片描述
用pyspark写出来的库,既可以在电脑上简单运行作数据分析处理,又可以迁移到spark集群进行分布式集群计算
学pyspark的目的就是衔接大数据方向,学习路线:
在这里插入图片描述

构建PySpark执行环境入口对象

想要使用PySpark库完成数据处理,首先需要构建一个执行环境入口对象。
PySpark的执行环境唯一入口对象是:类SparkContext的类对象

# 导包
from pyspark import SparkConf,SparkContext
#创建SparkConf类对象:local表示本机(单机)运行,如果想用分布式集群则还要改参数,此处不涉及
conf = SparkConf().setMaster("1ocal[*]").\setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext类对象
sc=SparkContext(conf=conf)
#打印PySpark的运行版本
print(sc.version)
#停止SparkContext对象的运行(停止PySpark程序)
sc.stop()

在pycharm中使用PySpark 出现Java gateway process exited before sending its port number.
(最新最全)pyspark报错Exception: Java gateway process exited before sending its port number
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com