Spark 安装
我们介绍 Spark 的安装。和 Hadoop 的安装类似,也是先下载、解压,然后设置环境变量。
在安装 Spark 之前,要单独安装 hadoop 吗?不需要。Spark 自带了 Hadoop 的一部分必要组件,使得你能够在本地运行 Spark 而无需额外安装 Hadoop。
下载
获得最新的 Spark 程序下载地址
- 网址:https://spark.apache.org/downloads.html
- 保持 Choose 选择框中的默认选项
- 点击 Download 后面的链接,比如 spark-3.5.1-bin-hadoop3.tgz
- 在打开的网页中,复制下载地址,比如 https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
注意,上面下载的 Spark 的预编译二进制文件,是包括了 Hadoop。按照你的需要,也可以选择不包括 Hadoop 的。
下载,解压,并进行目录移动。下面是示例,请根据最新的 spark 版本号,修改具体的内容
- wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
- tar -xvf *.tgz
- sudo mv spark-3.5.1-bin-hadoop3 /opt/spark
设置环境变量
编辑 shell 配置文件
修改 .zshrc,加入以下环境变量
- export SPARK_HOME=/opt/spark
- export PATH=$SPARK_HOME/bin:$PATH
- export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
在 Terminal 中执行 source ~/.zshrc,使这些更改生效
安装 pyspark
我们接着安装 PySpark
在 Terminal 中执行
- pip install pyspark
运行 pyspark
在 Terminal 输入 pyspark
然后进入 Networking,点击 4040 端口后的 Address,观看 PySpark 管理界面
在 pyspark 中输入代码
from pyspark.sql import SparkSession spark = SparkSession.builder.appName(“example”).getOrCreate() data = [(“Alice”, 1), (“Bob”, 2), (“Cathy”, 3)] df = spark.createDataFrame(data, [“Name”, “Value”]) df.show()
如果能够显示表中的内容,那么就说明我们已经可以进行 Spark 编程了。
Index | Previous | Next |