大数据工具

使用大数据工具插件,您可以监控您的Hadoop应用程序。

典型工作流程:

  1. 建立与 Hadoop 服务器的连接

  2. 调整预览布局

  3. 过滤出要监控的参数

创建到 Hadoop 服务器的连接

  1. Big Data Tools窗口中,单击添加连接并选择Monitoring部分下的Hadoop 。

  2. 数据工具连接对话框打开。

    配置 Hadoop 连接

    强制参数:

    • URL:目标服务器的路径。

    • Name:连接的名称,以区分其他连接。

    或者,您可以设置:

    • 启用隧道。创建到远程主机的 SSH 隧道。如果目标服务器位于专用网络中但与网络中主机的 SSH 连接可用,则它可能很有用。

      选中复选框并指定 SSH 连接的配置(单击...创建新的 SSH 配置)。

    • 每个项目:选择以仅为当前项目启用这些连接设置。如果您希望此连接在其他项目中可见,请取消选择它。

    • 启用连接:如果要限制使用此连接,请取消选择。默认情况下,启用新创建的连接。

    • 启用 HTTP 基本身份验证:使用指定的用户名和密码进行 HTTP 身份验证连接。

    • 启用 HTTP 代理:使用指定的主机、端口、用户名和密码与 HTTP 代理连接。

    • HTTP Proxy : 与 HTTP 或 SOCKS Proxy 身份验证的连接。选择是要使用IDEA HTTP 代理设置还是使用具有指定主机名、端口、登录名和密码的自定义设置。

    • Kerberos 身份验证设置:打开 Kerberos 身份验证设置。

      Kerberos 设置

      指定以下选项:

      • 启用 Kerberos 身份验证:选择以使用Kerberos 身份验证协议

      • Krb5 配置文件:包含Kerberos 配置信息的文件。

      • JAAS 登录配置文件:由一个或多个条目组成的文件,每个条目指定应将哪种底层身份验证技术用于特定应用程序或应用程序。

      • 仅使用主题凭据:允许该机制从某些供应商特定位置获取凭据。选中此复选框并提供用户名和密码。

      • 要将其他登录信息包含到 PyCharm 日志中,请选择Kerberos 调试日志记录JGSS 调试日志记录

        请注意,Kerberos 设置对所有 Spark 连接都有效。

    • 您还可以重用任何现有的 Spark 连接。只需从Spark 监控列表中选择它。

  3. 填写设置后,单击测试连接以确保所有配置参数正确。然后单击确定

您可以随时通过以下方式之一打开连接设置:

  • 转到工具 | IDE设置的大数据工具设置Ctrl+Alt+S页面。

  • 单击Hadoop 监控工具窗口工具栏设置

与 Hadoop 服务器建立连接后,会出现Hadoop 监控工具窗口。它由几个区域组成,用于监控以下数据:

有关由资源管理器提供支持的集群指标和资源的详细信息。

Hadoop 监控:集群信息

提供有关负责任务执行的节点的信息。

Hadoop 监控:注释

提供有关所选数据节点的详细信息,包括节点资源分配。

Hadoop 监控:节点标签

用户应用程序的详细概述,包括应用程序指标和执行尝试。

Hadoop 监控:应用程序

监控工具,例如连接设置、日志信息、服务器堆栈详细信息和服务器指标。

Hadoop 监控:工具

有关数据类型的更多信息,请参阅Hadoop 文档。

调整布局

  • 在应用程序列表中,选择一项进行学习。

  • 要管理监控区域的可见性,请使用以下按钮:

    预览尝试

    显示执行尝试的列表。

    预览详情

    显示应用程序详细信息。

    显示应用程序详细信息

  • 要关注特定应用程序,请单击应用程序详细信息监视区域中的在单独的选项卡中打开链接。

    单击以在单独的选项卡中预览

    应用程序详细信息将显示在单独的选项卡中。

    在单独的选项卡中查看应用程序

  • 单击网络预览可在浏览器中预览任何监控数据。

设置好监控窗口布局,打开或关闭部分预览区域后,您可以过滤监控数据以预览特定参数。

过滤掉监控数据

  • 使用监控选项卡中的过滤器按钮 ( 过滤申请状态) 显示具有特定状态的应用程序的详细信息。选择您要监控的特定应用程序状态。

    您还可以按用户名、开始时间和结束时间过滤应用程序列表。此外,您可以指定过滤列表中项目的限制。

    Hadoop 监控:应用程序
  • 管理表格中的内容:

    • 单击列标题可更改列中数据的顺序。

    • 单击工具栏上的显示/隐藏列以选择要在表中显示的列:

      选择要在表格中显示的列

随时可以点击Hadoop监控工具窗口手动刷新监控数据刷新或者,您可以在刷新按钮旁边的列表中配置特定时间间隔内的自动更新。您可以选择 5、10 或 30 秒。

最后修改:2021 年 12 月 20 日