处理数据文件
最后修改时间:2023 年 9 月 8 日建立与远程存储的连接后,您就可以使用数据文件。使用远程文件系统插件,您可以管理存储桶、执行基本文件操作、快速查找文件并导航到该文件等等。
您还可以以表格形式预览大型结构化文件(Parquet、ORC、Avro 和 CSV)。此功能由大数据文件查看器提供,它随远程文件系统插件自动安装。
管理服务器目录
展开服务器节点以预览其结构。
右键单击目录以打开上下文菜单。
您可以复制、粘贴、重命名目录、更改其位置、复制其路径以及添加新文件和目录。选择从磁盘上传以将更多文件添加到目录中。您还可以将目录及其文件保存在本地驱动器上。
要快速创建新文件、目录或连接,请按。AltInsert
导航到文件
大数据工具工具窗口可让您快速定位存储中的文件和目录。如果您有很多嵌套目录并且在查找文件时不想单击并展开每个目录,那么它会很有用。相反,您可以开始输入路径,让 PyCharm 显示可用文件并自动完成路径。
选择与存储的连接,然后单击大数据工具工具窗口顶部的或按。如果您想在其中查找文件,您可以选择特定的存储桶或目录。Ctrl0F
在导航窗口中,开始键入文件或目录的路径。按可自动完成路径。或者您可以输入存储桶的名称以快速找到它。Tab
按。Enter
这将在大数据工具工具窗口中找到选定的文件。
管理数据文件
展开目标目录并选择一个文件。
右键单击该文件以打开上下文菜单。
您可以复制、粘贴、重命名文件、复制其路径、更改其位置或将其删除。
要简要预览结构化文件(例如 CSV、Parquet、ORC 或 Avro)的详细信息,请在编辑器或大数据工具工具窗口中展开它。您应该能够看到列及其类型。
从上下文菜单中选择“显示信息”以获取有关该文件的更多详细信息:
要查看文件,请双击该文件或从上下文菜单中选择“预览”命令。该文件在编辑器中打开。您无法编辑它,但可以将其预览为表格或文本:
表格视图文本视图在表格视图中,您可以对表格元素进行操作。右键单击打开上下文菜单,然后选择命令来复制原始数据或列,或将整个表复制到剪贴板或文件。
您还可以通过单击列标题对列中的数据进行排序。
当您打开.parquet文件时,插件仅显示文件内容的第一部分。当您处理非常大的文件时,这特别有用。
在编辑器中查看文件
要在编辑器的单独选项卡中打开任何存储或目录,请在大数据工具工具窗口中选择该项目,然后单击。
所选目录将在编辑器的单独选项卡中打开。
您可以与大数据工具工具窗口中打开的服务器和目录交换文件。使用查看器工具栏图标复制、粘贴和剪切文件。
您可以自定义存储的视觉外观:
单击可管理文件信息详细信息的可见性。
单击可排除视图的任何列。默认情况下,所有列都显示在查看器中。
单击可更新所选目录的内容。
使用来访问其他命令。
拖放文件
使用 PyCharm,您可以通过将文件拖动到所需的存储桶、容器或目录,在不同的远程文件系统之间或同一存储内轻松复制和移动文件。您还可以通过将文件从项目工具窗口拖动到编辑器(可以在编辑器或大数据工具工具窗口中打开)来快速将文件从本地文件系统上传到远程文件系统。
将文件拖至所需的存储桶、容器或目录
在打开的窗口中,确认文件名和目标目录。
当您在同一连接中拖动文件时,PyCharm 会从原始位置删除该文件。当您将文件从项目或从一个连接拖动到另一个连接时,PyCharm 会创建该文件的副本。
编辑文件
与远程存储建立连接后,您可以编辑此存储中的文本文件,Zeppelin 笔记本和分隔符分隔的文件(例如 CSV)除外。
双击文件以在编辑器中打开它。
修改文件。在文件的顶部,图标变得可用,允许您:
显示差异 ( )
将文件内容恢复到其初始状态,就像打开它时一样 ( )
从服务器检索最新的文件更改 ( )
将文件更改提交到服务器 ( )
查看文件版本
版本控制允许您在存储中拥有同一对象的多个变体。如果为存储桶启用了版本控制,您可以直接在 PyCharm 中查看对象的版本。您还可以上传、下载、删除、恢复和比较特定版本。
提示
要查看和管理文件版本,必须在相应的存储桶中启用版本控制。有关更多信息,请参阅您的存储文档(例如,对 AWS S3 存储桶启用存储桶版本控制)。
在“大数据工具”工具窗口中,选择一个存储并单击在编辑器中将其打开。
展开已启用版本控制的存储桶,然后选择存储桶中的文件。
在“详细信息”窗格中,打开“版本”选项卡。
该选项卡显示所选文件的所有可用版本。
选择版本后,以下图标将变为可用:
从本地驱动器上传文件的新版本。
下载文件的选定版本。
删除文件的选定版本。
恢复文件的选定版本。
显示所选文件版本与先前版本之间的差异(或者,如果您想显示两个版本之间的差异,则可以选择两个版本)。
创建一个新存储桶
要将新存储桶添加到数据存储,请右键单击大数据工具工具窗口中的存储连接,然后从上下文菜单中选择创建存储桶。
指定新的存储桶名称,然后单击“确定”完成任务。
过滤桶列表
如果您想要使用部分存储而不是整个存储,您可以筛选要在大数据工具工具窗口和编辑器中显示的存储桶(或 Microsoft Azure 中的容器)。
您可以指定存储桶和目录的自定义路径,也可以按名称过滤存储桶。您可以在配置新连接时执行此操作,也可以调整之前配置的连接设置。
在大数据工具工具窗口中,选择服务器并单击窗口工具栏上的 。
选择过滤桶的方式:
选择自定义根,然后在根字段中指定存储桶的名称或存储桶中目录的路径。您可以通过用逗号分隔来指定多个名称或路径。
选择帐户中的所有存储桶(或对于 Azure ,选择帐户中的所有容器)。然后,您可以使用存储桶过滤器仅显示具有特定名称的存储桶。
对于 AWS S3 连接,您还可以选择仅来自所选区域的存储桶以从特定区域获取存储桶。对于其他存储,存储桶始终根据选择连接的区域进行过滤。
如果服务器连接丢失,相应的图标会显示服务器的断开状态。
单击可重新建立与服务器的连接。
感谢您的反馈意见!