Spark 提交运行配置
最后修改时间:2023 年 11 月 20 日通过Spark插件,您可以在Spark集群上执行应用程序。PyCharm 提供运行/调试配置来运行Spark 的 bin 目录中的Spark-submit脚本。您可以在本地或使用 SSH 配置执行应用程序。
提示
笔记
目前,PyCharm 不支持调试 Spark 应用程序。
安装 Spark 插件
此功能依赖于Spark插件,您需要安装并启用该插件。
按打开 IDE 设置,然后选择插件。CtrlAlt0S
打开Marketplace选项卡,找到Spark插件,然后单击Install(如果出现提示,请重新启动 IDE)。
使用 Spark 提交配置运行应用程序
转到“运行”| 编辑配置。或者,单击“运行”小组件,然后从下拉菜单中选择“编辑配置” 。
单击添加新配置按钮 ( ) 并选择Spark 提交| 簇。
提示
火花提交| 本地和Spark 提交 | PyCharm 2023.3 中已弃用SSH配置。
输入运行配置名称。
在远程目标列表中,执行以下操作之一:
如果您已连接到AWS EMR 集群,则可以在其上上传应用程序。
如果您有 SSH 配置,则可以使用它们将应用程序提交到自定义远程服务器。
否则,单击“添加 EMR 连接”或“添加 SSH 连接”。
在“申请”字段中,单击并选择要提交的申请。
在“类”字段中,键入应用程序主类的名称。
笔记
要检查结果
spark-submit
命令,请向下滚动到“结果提交命令”部分。您还可以指定可选参数:
运行参数:运行应用程序的参数。
在Spark Configuration下,设置:
集群管理器:选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。请参阅集群模式概述中的更多详细信息。
部署模式:集群或客户端。
目标上传目录:远程主机上上传可执行文件的目录。
Spark home:Spark 安装目录的路径。
Configs:任意 Spark 配置属性,采用 key=value 格式。
属性文件:具有 Spark 属性的文件的路径。
在“依赖关系”下,选择要执行的应用程序所需的文件和存档(jar)。
在Maven下,选择 Maven 特定的依赖项。您可以添加存储库或从执行上下文中排除某些包。
在Driver下,选择 Spark Driver 设置,例如用于驱动程序进程的内存量。对于集群模式,还可以指定核心数。
在Executor下,选择执行器设置,例如内存量和核心数。
Kerberos:用于与 Kerberos 建立安全连接的设置。
Shell 选项:选择是否要在 Spark 提交之前执行任何脚本。
输入bash的路径并指定要执行的脚本。建议提供脚本的绝对路径。
如果您想以交互模式启动脚本,请选择交互复选框。您还可以指定环境变量,例如
USER=jetbrains
.高级提交选项:
代理用户:启用使用代理进行 Spark 连接的用户名。
驱动程序 Java 选项、驱动程序库路径和驱动程序类路径:添加其他驱动程序选项。有关详细信息,请参阅运行时环境。
Archives:要提取到每个执行器的工作目录中的以逗号分隔的档案列表。
打印额外的调试输出:运行spark-submit并选择
--verbose
打印调试信息。
单击“确定”保存配置。然后从创建的配置列表中选择配置并单击。
在“运行”工具窗口中检查执行结果。
感谢您的反馈意见!