使用 Big Data Tools 插件,您可以在Spark 集群上执行应用程序。PyCharm 提供运行/调试配置来运行 Spark 的 bin 目录中的spark-submit脚本。您可以在本地或使用 SSH 配置执行应用程序。
准备要运行的应用程序。它可以是jar或py文件。
在运行/调试配置列表中选择添加配置。
如果您已经创建了任何运行/调试配置,请从列表中选择编辑配置。
单击添加新配置按钮 ( )。
选择
或 配置。填写配置参数:
强制参数:
Spark home:Spark 安装目录的路径。
应用程序:可执行文件的路径。您可以指定一个py文件。
Main class : jar归档的主类的名称。从列表中选择它。
可选参数:
名称:用于区分运行/调试配置的名称。
允许并行运行:选择允许并行运行此运行配置的多个实例。
存储为项目文件:将文件与运行配置设置一起保存以与其他团队成员共享。默认位置是.idea/runConfigurations。但是,如果您不想共享.idea目录,您可以将配置保存到项目中的任何其他目录。
运行参数:应用程序的参数。
集群管理器:选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。在集群模式概述中查看更多详细信息。
Master:传递给 Spark的主 URL的格式。
代理用户:为使用 Spark 连接代理启用的用户名。
如果要在 Spark 提交之前执行任何脚本,请指定Shell 选项。
输入 bash 的路径并指定要执行的脚本。建议提供脚本的绝对路径。
如果要在交互模式下启动脚本,请选中Interactive复选框。您还可以指定环境变量,例如USER=jetbrains
.
启动前:在此区域中,您可以指定在启动选定的运行/调试配置之前必须执行的任务。任务按照它们在列表中出现的顺序执行。
显示此页面:选中此复选框可在实际开始运行/调试配置之前显示运行/调试配置设置。
激活工具窗口:默认情况下,此复选框处于选中状态,当您启动运行/调试配置时,运行工具窗口将打开。
您可以单击添加选项并选择一个选项以添加到您的配置中:
Spark 配置:通过属性文件或属性列表提供的 Spark 配置选项。
依赖项:执行应用程序所需的文件和档案(jar)。
Maven:特定于 Maven 的依赖项。您可以添加存储库或从执行上下文中排除某些包。
Driver:Spark Driver 设置,例如内存、CPU、本地驱动程序库、Java 选项和类路径。
Executor:执行器设置,例如内存、CPU 和档案。
Spark 监控集成:使用Spark 监控监控应用程序执行的能力。
Kerberos:用于与 Kerberos 建立安全连接的设置。
Logging:打印调试日志的选项。
强制参数:
SSH 配置:单击...并创建一个新的 SSH 配置。使用 Spark 集群和用户凭据指定远程主机的 URL 以访问它。然后单击测试连接以确保您可以连接到远程服务器。
目标目录:远程主机上上传可执行文件的目录。
Spark home:Spark 安装目录的路径。
应用程序:可执行文件的路径。您可以指定一个py文件。
Main class : jar归档的主类的名称。从列表中选择它。
名称:用于区分运行/调试配置的名称。
允许并行运行:选择允许并行运行此运行配置的多个实例。
存储为项目文件:将文件与运行配置设置一起保存以与其他团队成员共享。默认位置是.idea/runConfigurations。但是,如果您不想共享.idea目录,您可以将配置保存到项目中的任何其他目录。
运行参数:应用程序的参数。
集群管理器:选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。在集群模式概述中查看更多详细信息。
Master:传递给 Spark的主 URL的格式。
代理用户:为使用 Spark 连接代理启用的用户名。
如果要在 Spark 提交之前执行任何脚本,请指定Shell 选项。
输入 bash 的路径并指定要执行的脚本。建议提供脚本的绝对路径。
如果要在交互模式下启动脚本,请选中Interactive复选框。您还可以指定环境变量,例如USER=jetbrains
.
启动前:在此区域中,您可以指定在启动选定的运行/调试配置之前必须执行的任务。任务按照它们在列表中出现的顺序执行。
显示此页面:选中此复选框可在实际开始运行/调试配置之前显示运行/调试配置设置。
激活工具窗口:默认情况下,此复选框处于选中状态,当您启动运行/调试配置时,运行工具窗口将打开。
您可以单击添加选项并选择一个选项以添加到您的配置中:
Spark 配置:通过属性文件或属性列表提供的 Spark 配置选项。
依赖项:执行应用程序所需的文件和档案(jar)。
Maven:特定于 Maven 的依赖项。您可以添加存储库或从执行上下文中排除某些包。
Driver:Spark Driver 设置,例如内存、CPU、本地驱动程序库、Java 选项和类路径。
Executor:执行器设置,例如内存、CPU 和档案。
Spark 监控集成:使用Spark 监控监控应用程序执行的能力。
Kerberos:用于与 Kerberos 建立安全连接的设置。
Logging:打印调试日志的选项。
单击确定以保存配置。然后从创建的配置列表中选择配置并单击。
在运行工具窗口中检查执行结果。