阅读量:145
Apache Spark Standalone 是一种简单的分布式计算框架,用于在多台机器上运行 Spark 应用程序。要配置 Spark Standalone 集群,请按照以下步骤操作:
-
准备环境: 确保所有节点(Master 和 Worker)上都安装了 Java Development Kit (JDK) 和 Apache Spark。你还需要在每个节点上安装一个 SSH 服务器,以便 Master 可以访问 Worker。
-
配置 Spark: 在每个节点上创建一个名为
spark-env.sh的 shell 脚本,用于设置 Spark 环境变量。在每个节点上执行以下命令:
touch spark-env.sh
chmod +x spark-env.sh
编辑 spark-env.sh 文件,添加以下内容(根据你的环境进行修改):
export SPARK_MASTER_HOST=
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=
export SPARK_WORKER_MEMORY=
export SPARK_WORKER_INSTANCES=
export SPARK_LOG_DIR=
export SPARK_HOME=
- 启动 Master: 在 Master 节点上,打开一个终端窗口,然后执行以下命令以启动 Spark Master:
$SPARK_HOME/sbin/start-master.sh
这将在 Master 节点上启动一个 Web UI,你可以在浏览器中访问 http:// 以查看 Spark Web UI。
- 启动 Worker: 在每个 Worker 节点上,打开一个终端窗口,然后执行以下命令以启动 Spark Worker:
$SPARK_HOME/sbin/start-slave.sh spark://:7077
这将使 Worker 注册到 Master,并开始在指定的核心和内存上运行任务。
- 验证集群: 在 Master 节点的 Web UI 中,你应该能看到 Worker 节点已连接到集群。你可以通过提交一个简单的 Spark 应用程序来验证集群是否正常工作。例如,你可以使用以下命令在 Master 节点上运行一个 Python 示例:
$SPARK_HOME/bin/spark-submit --master spark://:7077 --deploy-mode cluster examples/src/main/python/wordcount.py
如果一切正常,你应该能在 Web UI 中看到作业的执行情况,以及各个 Task 的状态。
现在你已经成功配置了一个 Spark Standalone 集群。你可以开始在这个集群上运行你的 Spark 应用程序了。