大数据工具

大数据工具插件适用于 PyCharm 2020.1 及更高版本。它提供了使用ZeppelinAWS S3SparkGoogle Cloud StorageMinioLinodeDigital Open SpacesMicrosoft AzureHadoop 分布式文件系统 (HDFS)监控和处理数据的特定功能。

您可以创建新的或编辑现有的本地或远程 Zeppelin 笔记本、执行代码段落、预览生成的表格和图形,并将结果导出为各种格式。

启用了大数据工具插件的 IDE 用户界面

PyCharm 中的大数据工具入门

PyCharm 中大数据处理的基本工作流程包括以下步骤:

配置您的环境

  1. 安装数据工具插件。

  2. 在 PyCharm 中创建一个新项目。

  3. 配置与目标服务器的连接。

  4. 使用您的笔记本数据文件

使用笔记本

  1. 创建编辑笔记本。

  2. 执行笔记本。

  3. 分析您的数据

熟悉用户界面

当您为 PyCharm 安装 Big Data Tools 插件时,会出现以下用户界面元素:

大数据工具窗口

Big Data Tools窗口出现在工具窗口的最右侧中。该窗口显示配置的服务器列表和文件夹结构的文件。

可以从上下文菜单中对笔记本进行基本操作。

大数据工具窗口

您可以浏览目录并预览.csv.parquet.avro.orc文件的柱状结构。

数据文件的基本操作可从上下文菜单中获得。您还可以通过将文件拖动到目标服务器上的目标目录来移动文件。

BDT 窗口中的数据文件

对于服务器的基本操作,请使用窗口工具栏:

添加连接

添加到服务器的新连接。

删除连接

删除选定的连接。

在笔记本中搜索

打开一个窗口以搜索所有可用的 Zeppelin 连接。

刷新连接

刷新与所有已配置服务器的连接。

连接设置

打开所选服务器的连接设置

如果您对大数据工具插件有任何疑问,请单击支持链接并选择可用选项之一。您可以加入支持 Slack 频道,在 YouTrack 系统中提交工单,或复制支持电子邮件以发送您的问题。

BDT 支持选项

笔记本编辑器

Zeppelin 笔记本编辑器

在笔记本编辑器中,您可以添加和执行 Python 代码段。编辑代码段时,您可以使用可用于特定语言的所有编码辅助功能。代码警告和错误将在滚动条的相应代码结构中突出显示。段落执行的结果显示在每个段落下方的预览区域中。

使用笔记本编辑器工具栏进行笔记本的基本操作:

全部运行

执行笔记本中的所有段落。

停止执行

停止笔记本段落的执行。

清除所有输出

清除所有段落的输出预览。

附加动作

选择将注释代码导出为 HTML以将注释另存为 HTML 文件。选择切换代码可见性以隐藏代码段落(默认情况下,显示所有类型的段落)。

解释器绑定

打开解释器绑定对话框为选定的笔记本配置解释器。

在浏览器中打开

单击此按钮可在浏览器中打开笔记本或复制指向它的链接。

导航

允许您跳转到笔记本的特定段落。

小地图

显示用于在笔记本中快速导航的小地图。

本地笔记的工具栏包含可用 Zeppelin 服务器的列表,以便您可以选择一个来执行笔记。

笔记本编辑器工具栏还显示最后一段执行的状态。

段落执行状态

发生错误的执行

发生错误的执行

监控工具窗口

当您连接到SparkHadoop服务器时,会出现这些窗口。

火花监控:工作
单击以在单独的选项卡中预览
最后修改:2021 年 12 月 20 日