大数据工具插件适用于 PyCharm 2020.1 及更高版本。它提供了使用Zeppelin、AWS S3、Spark、Google Cloud Storage、Minio、Linode、Digital Open Spaces、Microsoft Azure和Hadoop 分布式文件系统 (HDFS)监控和处理数据的特定功能。
您可以创建新的或编辑现有的本地或远程 Zeppelin 笔记本、执行代码段落、预览生成的表格和图形,并将结果导出为各种格式。
PyCharm 中大数据处理的基本工作流程包括以下步骤:
当您为 PyCharm 安装 Big Data Tools 插件时,会出现以下用户界面元素:
Big Data Tools窗口出现在工具窗口的最右侧组中。该窗口显示配置的服务器列表和文件夹结构的文件。
可以从上下文菜单中对笔记本进行基本操作。
您可以浏览目录并预览.csv、.parquet、.avro和.orc文件的柱状结构。
数据文件的基本操作可从上下文菜单中获得。您还可以通过将文件拖动到目标服务器上的目标目录来移动文件。
对于服务器的基本操作,请使用窗口工具栏:
如果您对大数据工具插件有任何疑问,请单击支持链接并选择可用选项之一。您可以加入支持 Slack 频道,在 YouTrack 系统中提交工单,或复制支持电子邮件以发送您的问题。
在笔记本编辑器中,您可以添加和执行 Python 代码段。编辑代码段时,您可以使用可用于特定语言的所有编码辅助功能。代码警告和错误将在滚动条的相应代码结构中突出显示。段落执行的结果显示在每个段落下方的预览区域中。
使用笔记本编辑器工具栏进行笔记本的基本操作:
执行笔记本中的所有段落。 | |
停止笔记本段落的执行。 | |
清除所有段落的输出预览。 | |
选择将注释代码导出为 HTML以将注释另存为 HTML 文件。选择切换代码可见性以隐藏代码段落(默认情况下,显示所有类型的段落)。 | |
打开解释器绑定对话框为选定的笔记本配置解释器。 | |
单击此按钮可在浏览器中打开笔记本或复制指向它的链接。 | |
允许您跳转到笔记本的特定段落。 | |
显示用于在笔记本中快速导航的小地图。 |
本地笔记的工具栏包含可用 Zeppelin 服务器的列表,以便您可以选择一个来执行笔记。
笔记本编辑器工具栏还显示最后一段执行的状态。
当您连接到Spark或Hadoop服务器时,会出现这些窗口。