自定义 Spark 集群
最后修改时间:2023 年 12 月 1 日在Spark Submit 运行配置中,您可以使用 AWS EMR 或 Dataproc 作为远程服务器来运行应用程序。除了这两个选项之外,您还可以配置自己的自定义 Spark 集群:设置 SSH 配置以连接到远程服务器,并且可以选择配置与 Spark 历史记录服务器的连接和 SFTP 连接。
创建自定义 Spark 集群
在“大数据工具”窗口中,单击并选择“自定义 Spark 集群”。
在打开的窗口的第一步中,选择 SSH 配置,然后单击“下一步”。此 SSH 配置将用于连接到安装了 Spark-Submit 的服务器。
如果要在 IDE 中监控 Spark 作业,请在向导的第二步中指定用于建立与 Spark 历史服务器的连接的参数。
localhost:18080
指定自定义参数或使用默认设置,这将创建使用 SSH 隧道的连接。否则,选择我不需要连接到 Spark 历史记录服务器。
如果您需要与 Spark 集群建立 SFTP 连接,请在向导的第三步中指定其设置。
否则,选择我不需要到驱动程序节点的 SFTP 连接。
如果您已设置 Spark 历史记录和 SFTP 连接,则它们将在大数据工具工具窗口中的自定义 Spark 集群下可用。
您现在可以在Spark Submit 运行配置中选择该集群作为远程目标。当您启动此运行配置时,您将能够通过单击应用程序输出中的链接在“服务”工具窗口中打开 Spark 作业。
感谢您的反馈意见!
此页面是否有帮助?