大数据工具

使用 Big Data Tools 插件,您可以在Spark 集群上执行应用程序。PyCharm 提供运行/调试配置来运行 Spark 的 bin 目录中的spark-submit脚本。您可以在本地或使用 SSH 配置执行应用程序。

使用 Spark 提交配置运行应用程序

  1. 准备要运行的应用程序。它可以是jarpy文件。

  2. 在运行/调试配置列表中选择添加配置。

    添加运行/调试配置

    如果您已经创建了任何运行/调试配置,请从列表中选择编辑配置。

    编辑配置
  3. 单击添加新配置按钮 ( 添加运行/调试配置)。

    添加新配置

    选择Spark 提交 | 本地Spark 提交 | 可用配置列表中的SSH配置。

  4. 填写配置参数:

    Spark 提交配置

    强制参数:

    • Spark home:Spark 安装目录的路径。

    • 应用程序:可执行文件的路径。您可以指定一个py文件。

    • Main class : jar归档的主类的名称。从列表中选择它。

    可选参数:

    • 名称:用于区分运行/调试配置的名称。

    • 允许并行运行:选择允许并行运行此运行配置的多个实例。

    • 存储为项目文件:将文件与运行配置设置一起保存以与其他团队成员共享。默认位置是.idea/runConfigurations。但是,如果您不想共享.idea目录,您可以将配置保存到项目中的任何其他目录。

    • 运行参数:应用程序的参数。

    • 集群管理器:选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。在集群模式概述中查看更多详细信息。

    • Master:传递给 Spark的主 URL的格式。

    • 代理用户:为使用 Spark 连接代理启用的用户名。

    • 如果要在 Spark 提交之前执行任何脚本,请指定Shell 选项。

      输入 bash 的路径并指定要执行的脚本。建议提供脚本的绝对路径。

      如果要在交互模式下启动脚本,请选中Interactive复选框。您还可以指定环境变量,例如USER=jetbrains.

    • 启动前:在此区域中,您可以指定在启动选定的运行/调试配置之前必须执行的任务。任务按照它们在列表中出现的顺序执行。

    • 显示此页面:选中此复选框可在实际开始运行/调试配置之前显示运行/调试配置设置。

    • 激活工具窗口:默认情况下,此复选框处于选中状态,当您启动运行/调试配置时,运行工具窗口将打开。

    您可以单击添加选项并选择一个选项以添加到您的配置中:

    附加选项
    • Spark 配置:通过属性文件或属性列表提供的 Spark 配置选项。

    • 依赖项:执行应用程序所需的文件和档案(jar)。

    • Maven:特定于 Maven 的依赖项。您可以添加存储库或从执行上下文中排除某些包。

    • Driver:Spark Driver 设置,例如内存、CPU、本地驱动程序库、Java 选项和类路径。

    • Executor:执行器设置,例如内存、CPU 和档案。

    • Spark 监控集成:使用Spark 监控监控应用程序执行的能力。

    • Kerberos:用于与 Kerberos 建立安全连接的设置。

    • Logging:打印调试日志的选项。

    SSH Spark 提交配置

    强制参数:

    • SSH 配置:单击...并创建一个新的 SSH 配置。使用 Spark 集群和用户凭据指定远程主机的 URL 以访问它。然后单击测试连接以确保您可以连接到远程服务器。

      添加新的 SSH 配置
    • 目标目录:远程主机上上传可执行文件的目录。

    • Spark home:Spark 安装目录的路径。

    • 应用程序:可执行文件的路径。您可以指定一个py文件。

    • Main class : jar归档的主类的名称。从列表中选择它。

    可选参数:
    • 名称:用于区分运行/调试配置的名称。

    • 允许并行运行:选择允许并行运行此运行配置的多个实例。

    • 存储为项目文件:将文件与运行配置设置一起保存以与其他团队成员共享。默认位置是.idea/runConfigurations。但是,如果您不想共享.idea目录,您可以将配置保存到项目中的任何其他目录。

    • 运行参数:应用程序的参数。

    • 集群管理器:选择在集群上运行应用程序的管理方法。SparkContext 可以连接到多种类型的集群管理器(Spark 自己的独立集群管理器、Mesos 或 YARN)。在集群模式概述中查看更多详细信息。

    • Master:传递给 Spark的主 URL的格式。

    • 代理用户:为使用 Spark 连接代理启用的用户名。

    • 如果要在 Spark 提交之前执行任何脚本,请指定Shell 选项。

      输入 bash 的路径并指定要执行的脚本。建议提供脚本的绝对路径。

      如果要在交互模式下启动脚本,请选中Interactive复选框。您还可以指定环境变量,例如USER=jetbrains.

    • 启动前:在此区域中,您可以指定在启动选定的运行/调试配置之前必须执行的任务。任务按照它们在列表中出现的顺序执行。

    • 显示此页面:选中此复选框可在实际开始运行/调试配置之前显示运行/调试配置设置。

    • 激活工具窗口:默认情况下,此复选框处于选中状态,当您启动运行/调试配置时,运行工具窗口将打开。

    您可以单击添加选项并选择一个选项以添加到您的配置中:

    附加选项
    • Spark 配置:通过属性文件或属性列表提供的 Spark 配置选项。

    • 依赖项:执行应用程序所需的文件和档案(jar)。

    • Maven:特定于 Maven 的依赖项。您可以添加存储库或从执行上下文中排除某些包。

    • Driver:Spark Driver 设置,例如内存、CPU、本地驱动程序库、Java 选项和类路径。

    • Executor:执行器设置,例如内存、CPU 和档案。

    • Spark 监控集成:使用Spark 监控监控应用程序执行的能力。

    • Kerberos:用于与 Kerberos 建立安全连接的设置。

    • Logging:打印调试日志的选项。

  5. 单击确定以保存配置。然后从创建的配置列表中选择配置并单击执行

    选择配置
  6. 在运行工具窗口中检查执行结果。

    运行 Spark 应用程序
最后修改:2021 年 11 月 16 日