要预览和分析数据集,您需要运行笔记本的可执行段落。
您可以一个接一个地运行段落,也可以一次运行所有段落。执行任何段落时,请注意代码依赖性。例如,如果当前段落依赖于在前一段中初始化的变量,则需要先执行它。
单击笔记本编辑器工具栏以执行笔记本的所有段落,当前段落之上或之下的所有段落。执行进度将显示在工具栏上。
单击装订线中的图标以执行笔记本的特定段落。
执行完成后,执行状态会显示在工具栏和装订线中:
: 执行已成功完成
您可以单击此图标再次执行该段落。
: 执行失败
: 执行已中止
在成功执行的情况下,预览段落代码下方显示的输出。
当您执行笔记本的代码时,您可能希望在目标 Zeppelin 服务器上重新启动解释器。为了您的方便,PyCharm 提供了几个选项来执行此操作:
单击笔记本工具栏上的 。
右键单击装订线中的Run图标,然后选择 。
右键单击编辑器中的任何段落,然后从上下文菜单中选择
如果您的笔记本处理数据集合,您可以预览表格和图形形式的输出。您可以通过选择表格、图形或拆分视图来管理输出演示。将鼠标悬停在段落输出的右侧以查看相应的控件。
单击列标题以对其中的值进行排序。
单击以过滤选定列中的数据。
单击以按页面组织表格。切换此按钮并指定要在页面上显示的表格行数:10、15、30 或 100。
单击并选择要在表中显示的列。
单击以将表格保存在.csv文件中。
输入文件名并单击保存。
图表的默认类型由服务器上的图表设置定义。但是,您可以配置和修改预定义的图表类型。
单击以更改图表的初始设置。
单击与图表类型对应的任何图标,将绘制新图表。例如,单击以添加新的散点图。
将要绘制的列拖到特定字段:
单击添加新系列链接以向图表添加更多系列。然后将所需的列拖到目标字段以设置轴。
单击以将生成的图形输出保存为.png格式。
输入文件名并单击保存。
要定义图表的外观,请单击图表工具栏(输出区域的右侧)。
选择对比度或默认主题。单击以修改主题颜色。此外,您可以单击
以克隆主题并稍后对其进行自定义。
在预览区域查看修改后的设置并保存更改。
使用实验性功能ZTools,您可以预览当前 Zeppelin 会话的局部变量。ZTools 是一个Java 库,它在 Zeppelin 服务器和 IDE 之间建立协议,并提供运行时信息以获取有关变量的更多详细信息,并提供智能编码帮助。
在Zeppelin connection settings 中,选中Enable ZTools Integration复选框。
您还可以修改定义要收集的数据级别的其他选项:
仅从当前注释中定义的数据集中收集模式:仅收集当前笔记本中已定义的数据框。
仅从当前笔记中出现的 sql 表中收集元数据:仅收集名称出现在当前笔记本的 Scala、Python、SparkSQL 段落中的字符串文字中的表。
将下载的库指定为目标 Zeppelin 连接的模块依赖项。请参阅配置依赖项中的详细说明。
请注意,您必须具有加载 Zeppelin 依赖项的权限。如果您没有此权限,则 Zeppelin 服务器管理员必须在他们这边添加依赖项。
打开目标 Zeppelin 服务器上的任意笔记本并执行任意段落以收集数据。
一旦段落被执行,变量选项卡就会出现在Zeppelin工具窗口中。您还可以在笔记本工具栏中查看ZTools 同步状态。
在变量选项卡中,您可以预览变量的值。您可以右键单击任何变量以打开上下文菜单并使用Inspect ...命令在单独的窗口中检查该变量,或以文本形式 (查看文本) 预览其值。
您可以随时单击以与服务器同步。
如果笔记本或特定段落的执行失败,请查看错误消息并考虑一些典型的故障排除操作:
问题 | 建议操作 |
---|---|
笔记本工具栏不可用。显示以下警告消息: | 单击尝试重新连接链接以使笔记本连接到服务器。 |
服务器连接丢失。对应的图标显示服务器的断开状态: ![]() | 单击 |
口译员会话过期。例如,错误消息报告 Spark 会话已过期。 | 单击 |