大数据工具

使用大数据工具插件,您可以监控您的Spark作业。

典型工作流程:

  1. 建立与 Spark 服务器的连接

  2. 调整预览布局

  3. 过滤掉作业参数

创建到 Spark 服务器的连接

  1. Big Data Tools窗口中,单击添加连接并选择Monitoring部分下的Spark 。数据工具连接对话框打开。

  2. 数据工具连接对话框打开。

    配置 Spark 连接

    强制参数:

    • URL:目标服务器的路径。

    • Name:连接的名称,以区分其他连接。

    或者,您可以设置:

    • 启用隧道。创建到远程主机的 SSH 隧道。如果目标服务器位于专用网络中但与网络中主机的 SSH 连接可用,则它可能很有用。

      选中复选框并指定 SSH 连接的配置(单击...创建新的 SSH 配置)。

    • 每个项目:选择以仅为当前项目启用这些连接设置。如果您希望此连接在其他项目中可见,请取消选择它。

    • 启用连接:如果要限制使用此连接,请取消选择。默认情况下,启用新创建的连接。

    • 启用 HTTP 基本身份验证:使用指定的用户名和密码进行 HTTP 身份验证连接。

    • 启用 HTTP 代理:使用指定的主机、端口、用户名和密码与 HTTP 代理连接。

    • HTTP Proxy : 与 HTTP 或 SOCKS Proxy 身份验证的连接。选择是要使用IDEA HTTP 代理设置还是使用具有指定主机名、端口、登录名和密码的自定义设置。

    • Kerberos 身份验证设置:打开 Kerberos 身份验证设置。

      Kerberos 设置

      指定以下选项:

      • 启用 Kerberos 身份验证:选择以使用Kerberos 身份验证协议

      • Krb5 配置文件:包含Kerberos 配置信息的文件。

      • JAAS 登录配置文件:由一个或多个条目组成的文件,每个条目指定应将哪种底层身份验证技术用于特定应用程序或应用程序。

      • 仅使用主题凭据:允许该机制从某些供应商特定位置获取凭据。选中此复选框并提供用户名和密码。

      • 要将其他登录信息包含到 PyCharm 日志中,请选择Kerberos 调试日志记录JGSS 调试日志记录

        请注意,Kerberos 设置对所有 Spark 连接都有效。

  3. 填写设置后,单击测试连接以确保所有配置参数正确。然后单击确定

您可以随时通过以下方式之一打开连接设置:

  • 转到工具 | IDE设置的大数据工具设置Ctrl+Alt+S页面。

  • 单击Spark 监控工具窗口工具栏设置

与 Spark 服务器建立连接后,将显示Spark 监控工具窗口。

火花监控:工作

该窗口由几个区域组成,用于监视以下数据:

  • 应用程序:用户应用程序正在 Spark 上执行。

  • Job:由多个任务组成的并行计算。

  • 阶段:工作中的一组任务。

  • 环境:运行时信息和 Spark 服务器属性。

  • Executor:为运行任务并将数据保存在内存或磁盘存储中的应用程序启动的进程。

  • 存储:服务器存储利用率。

  • SQL:有关 SQL 查询执行的具体细节。

您还可以预览有关任务的信息,即发送给一个执行者的工作单元。

有关数据类型的更多信息,请参阅Spark 文档。

调整布局

  • 在应用程序作业列表中,选择要预览的作业。

  • 要专注于特定阶段,请切换到阶段选项卡。

    工作阶段
  • 要管理监控区域的可见性,请使用以下按钮:

    预览详情

    显示所选阶段的详细信息。

    显示任务

    显示在选定阶段执行的任务列表。

    显示阶段详细信息

  • 单击网络预览可在浏览器中预览任何监控数据。

设置好监控窗口的布局,打开或关闭部分预览区域后,您可以过滤监控数据以预览特定的作业参数。

过滤掉监控数据

  • 使用ApplicationsJobsStages选项卡中的以下按钮显示具有特定状态的作业和阶段的详细信息。

    运行作业

    显示正在运行的应用程序、作业或阶段

    成功的职位

    显示成功的应用程序、作业或阶段

    失败状态

    显示失败的作业或阶段

    未知状态

    显示状态未知的工作或阶段

    跳过测试

    显示跳过的阶段

  • 按开始时间和结束时间过滤应用程序列表。此外,您可以指定过滤列表中项目的限制。

    Spark监控中的过滤应用
  • 管理表格中的内容:

    • 单击列标题可更改列中数据的顺序。

    • 单击工具栏上的显示/隐藏列以选择要在表中显示的列:

      选择要在表格中显示的列

您可以随时点击Spark 监控工具窗口手动刷新监控数据刷新或者,您可以在刷新按钮旁边的列表中配置特定时间间隔内的自动更新。您可以选择 5、10 或 30 秒。

最后修改:2021 年 12 月 20 日