Spark 提交运行配置 _PyCharm中文网

转到“运行”| 编辑配置。或者，单击“运行”小组件，然后从下拉菜单中选择“编辑配置” 。

单击添加新配置按钮 ( ) 并选择Spark 提交| 簇。

提示
火花提交| 本地和Spark 提交 | PyCharm 2023.3 中已弃用SSH配置。

输入运行配置名称。

在远程目标列表中，执行以下操作之一：

如果您已连接到AWS EMR 集群，则可以在其上上传应用程序。
如果您有 SSH 配置，则可以使用它们将应用程序提交到自定义远程服务器。
否则，单击“添加 EMR 连接”或“添加 SSH 连接”。

在“申请”字段中，单击并选择要提交的申请。

在“类”字段中，键入应用程序主类的名称。

笔记
要检查结果spark-submit命令，请向下滚动到“结果提交命令”部分。

您还可以指定可选参数：

运行参数：运行应用程序的参数。
在Spark Configuration下，设置：
- 集群管理器：选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器（Spark 自己的独立集群管理器、Mesos 或 YARN）。请参阅集群模式概述中的更多详细信息。
- 部署模式：集群或客户端。
- 目标上传目录：远程主机上上传可执行文件的目录。
- Spark home：Spark 安装目录的路径。
- Configs：任意 Spark 配置属性，采用 key=value 格式。
- 属性文件：具有 Spark 属性的文件的路径。
在“依赖关系”下，选择要执行的应用程序所需的文件和存档（jar）。
在Maven下，选择 Maven 特定的依赖项。您可以添加存储库或从执行上下文中排除某些包。
在Driver下，选择 Spark Driver 设置，例如用于驱动程序进程的内存量。对于集群模式，还可以指定核心数。
在Executor下，选择执行器设置，例如内存量和核心数。
Kerberos：用于与 Kerberos 建立安全连接的设置。
Shell 选项：选择是否要在 Spark 提交之前执行任何脚本。
输入bash的路径并指定要执行的脚本。建议提供脚本的绝对路径。
如果您想以交互模式启动脚本，请选择交互复选框。您还可以指定环境变量，例如USER=jetbrains.
高级提交选项：
- 代理用户：启用使用代理进行 Spark 连接的用户名。
- 驱动程序 Java 选项、驱动程序库路径和驱动程序类路径：添加其他驱动程序选项。有关详细信息，请参阅运行时环境。
- Archives：要提取到每个执行器的工作目录中的以逗号分隔的档案列表。
- 打印额外的调试输出：运行spark-submit并选择--verbose打印调试信息。

单击“确定”保存配置。然后从创建的配置列表中选择配置并单击。

在“运行”工具窗口中检查执行结果。

专业的Spark 提交运行配置﻿

提示

笔记

安装 Spark 插件﻿

使用 Spark 提交配置运行应用程序﻿

提示

笔记

专业的
Spark 提交运行配置

安装 Spark 插件

使用 Spark 提交配置运行应用程序