大数据工具

要预览和分析数据集,您需要运行笔记本的可执行段落。

运行笔记本

您可以一个接一个地运行段落,也可以一次运行所有段落。执行任何段落时,请注意代码依赖性。例如,如果当前段落依赖于在前一段中初始化的变量,则需要先执行它。

  • 单击笔记本编辑器工具栏全部运行以执行笔记本的所有段落,当前段落之上或之下的所有段落。执行进度将显示在工具栏上。

  • 单击运行一个段落装订线中的图标以执行笔记本的特定段落。

执行完成后,执行状态会显示在工具栏和装订线中:

  • 完成:成功: 执行已成功完成

    您可以单击此图标再次执行该段落。

    运行一个段落

  • 完成:失败: 执行失败

  • 完成:中止: 执行已中止

在成功执行的情况下,预览段落代码下方显示的输出。

执行代码段已成功完成

刷新口译员

当您执行笔记本的代码时,您可能希望在目标 Zep​​pelin 服务器上重新启动解释器。为了您的方便,PyCharm 提供了几个选项来执行此操作:

  • 单击口译员设置笔记本工具栏上的 。

  • 右键单击装订线中的Run图标,然后选择Restart Interpreter

    从装订线重新启动 Dart 分析解释器
  • 右键单击编辑器中的任何段落,然后从上下文菜单中选择重新启动解释器。

查看输出

如果您的笔记本处理数据集合,您可以预览表格和图形形式的输出。您可以通过选择表格、图形或拆分视图来管理输出演示。将鼠标悬停在段落输出的右侧以查看相应的控件。

在输出视图之间切换

整理表格中的数据

  • 单击列标题以对其中的值进行排序。

  • 单击过滤数据以过滤选定列中的数据。

  • 单击分页以按页面组织表格。切换此按钮并指定要在页面上显示的表格行数:10、15、30 或 100。

  • 单击配置表格列并选择要在表中显示的列。

表格视图中的汽车数据

导出表

  1. 单击导出表以将表格保存在.csv文件中。

  2. 输入文件名并单击保存

图表的默认类型由服务器上的图表设置定义。但是,您可以配置和修改预定义的图表类型。

配置图表

  1. 单击图表设置图标以更改图表的初始设置。

    图表视图
  2. 单击与图表类型对应的任何图标,将绘制新图表。例如,单击散点图图标以添加新的散点图。

  3. 将要绘制的列拖到特定字段:

    构建新图表
  4. 单击添加新系列链接以向图表添加更多系列。然后将所需的列拖到目标字段以设置轴。

导出图表

  1. 单击导出图表以将生成的图形输出保存为.png格式。

  2. 输入文件名并单击保存

配置图表设置

  1. 要定义图表的外观,请单击图表设置图表工具栏(输出区域的右侧)。

  2. 选择对比度或默认主题。单击编辑主题以修改主题颜色。此外,您可以单击克隆主题以克隆主题并稍后对其进行自定义。

    图表设置
  3. 在预览区域查看修改后的设置并保存更改。

使用 ZTools 查看变量

使用实验性功能ZTools,您可以预览当前 Zeppelin 会话的局部变量。ZTools 是一个Java 库,它在 Zeppelin 服务器和 IDE 之间建立协议,并提供运行时信息以获取有关变量的更多详细信息,并提供智能编码帮助。

  1. Zeppelin connection settings 中,选中Enable ZTools Integration复选框。

    启用 ZTools

  2. 您还可以修改定义要收集的数据级别的其他选项:

    • 仅从当前注释中定义的数据集中收集模式:仅收集当前笔记本中已定义的数据框。

    • 仅从当前笔记中出现的 sql 表中收集元数据:仅收集名称出现在当前笔记本的 Scala、Python、SparkSQL 段落中的字符串文字中的表。

  3. 从https://dl.bintray.com/jetbrains/zeppelin-dependencies/org/jetbrains/ztools/ztools-spark-all/0.0.13/ztools-spark-all-0.0.13.jar下载 ZTools 库。

  4. 将下载的库指定为目标 Zep​​pelin 连接的模块依赖项。请参阅配置依赖项中的详细说明。

    请注意,您必须具有加载 Zeppelin 依赖项的权限。如果您没有此权限,则 Zeppelin 服务器管理员必须在他们这边添加依赖项。

  5. 打开目标 Zep​​pelin 服务器上的任意笔记本并执行任意段落以收集数据。

  6. 一旦段落被执行,变量选项卡就会出现在Zeppelin工具窗口中。您还可以在笔记本工具栏中查看ZTools 同步状态。

    在 Zepplin 工具窗口中查看变量
  7. 变量选项卡中,您可以预览变量的值。您可以右键单击任何变量以打开上下文菜单并使用Inspect ...命令在单独的窗口中检查该变量,或以文本形式 (查看文本) 预览其值。

    检查变量

    您可以随时单击刷新连接以与服务器同步。

故障排除

如果笔记本或特定段落的执行失败,请查看错误消息并考虑一些典型的故障排除操作:

问题

建议操作

笔记本工具栏不可用。显示以下警告消息:笔记本没有连接

单击尝试重新连接链接以使笔记本连接到服务器。

服务器连接丢失。对应的图标显示服务器的断开状态:

断开连接的服务器

单击刷新连接以重新建立与服务器的连接。

口译员会话过期。例如,错误消息报告 Spark 会话已过期。

单击解释器绑定笔记本工具栏控件并重新启动有问题的解释器。

最后修改:2022 年 1 月 11 日