配置笔记本
最后修改时间:2023 年 12 月 4 日使用 PyCharm,您可以连接到 Zeppelin 服务器或在项目中创建笔记本。
连接到 Zeppelin 服务器
在“大数据工具”窗口中,单击并选择Zeppelin。
在打开的“大数据工具”对话框中,指定连接参数:
名称:连接的名称,用于区分其他连接。
URL:Zeppelin 服务器的 URL。
用户名和密码:输入 Zeppelin 用户的凭据或选择以匿名身份登录。
您可以选择设置:
每个项目:选择仅为当前项目启用这些连接设置。如果您希望此连接在其他项目中可见,请取消选择它。
启用连接:如果要禁用此连接,请取消选择。默认情况下,启用新创建的连接。
Zeppelin 版本:输入 Zeppelin 版本或将该字段留空以自动检测服务器上使用的版本。
启用 HTTP 基本身份验证:使用指定的用户名和密码进行 HTTP 身份验证的连接。
Proxy:用HTTP或SOCKS Proxy认证连接。选择是否要使用IDEA HTTP 代理设置或使用具有指定主机名、端口、登录名和密码的自定义设置。
启用隧道。此选项创建到远程主机的 SSH 隧道。如果目标服务器位于专用网络中,但与网络中的主机的 SSH 连接可用,那么它会很有用。
选中该复选框并指定 SSH 连接的配置(单击...以创建新的 SSH 配置)。
通知。如果您希望在执行时间超过指定时间间隔(默认情况下为 60 秒)时收到通知,请选择启用单元执行通知。
填写设置后,单击测试连接以确保所有配置参数正确。然后单击“确定”。
配置笔记本依赖项
建立与 Zeppelin 服务器的连接后,您就可以开始使用笔记本电脑了。但是,确保在特定服务器上执行所需的所有库和包均已安装且可用,这可能是一个很好的做法。
转到文件 | 项目结构。
在“项目结构”对话框中,在“项目设置”列表中选择“模块”。然后选择模块列表中任何已配置的连接,并双击“系统依赖项”。
检查已添加库的列表。单击列表并开始键入以搜索特定库。
如果需要,修改库列表
单击以添加新库。
单击并指定外部文档的 URL。
单击以选择您希望 PyCharm 忽略的项目(文件夹、存档和存档内的文件夹),然后单击“确定”。
单击可从库中删除选定的普通库或恢复选定的排除项目。这些物品本身将保留在图书馆中。
管理 Zeppelin 口译员
您可以在 Zeppelin 服务器上配置解释器。添加解释器后,该服务器上的所有注释都可以使用它。
配置 Zeppelin 解释器
使用以下方式之一打开解释器设置:
单击笔记本工具栏上的 。
在BigDataTools工具窗口中右键单击 Zeppelin 服务器,然后从上下文菜单中选择打开解释器设置。
在“解释器设置”窗口中预览可用解释器的列表。
请注意,解释器列表与 Zeppelin 0.8 及更早版本的“解释器绑定”对话框中打开的列表相同。对于 Zeppelin 0.9,解释器绑定仅显示正在使用的解释器。要过滤掉解释器列表,请在“搜索”字段中输入目标名称。
您可以使用解释器工具栏的以下操作:
预览目标解释器的设置。
当解释器解决了所有依赖关系并准备好使用时,其状态显示为Ready。
如果所选解释器是解释器组的根,您应该看到该组中包含的解释器。例如,该
spark
组由%spark
,%spark.sql
,%spark.pyspark
,%spark.ipyspark
,%spark.r
,%spark.ir
,%spark.shiny
,%spark.kotlin
选择SHARED、SCOPED或ISOLATED 解释器绑定模式。在共享模式下,使用此解释器的每个注释共享一个解释器实例。范围和隔离模式可以在每个用户或每个注释维度下使用。在按注释限定范围模式下,每个注释将在同一解释器进程中创建一个新的解释器实例。在每个注释隔离模式下,每个注释将创建一个新的解释器进程。
如果您想限制对所选解释器的访问,请选中“设置权限”复选框并指定所有者名称。
选择连接到现有进程复选框以提供目标服务器上的主机和端口。
您可以添加解释器属性或修改预定义的属性集及其值。如果属性名称由大写字符、数字或下划线 ([A-Z_0-9]) 组成,则属性将导出为系统上的环境变量。否则,该属性将被设置为公共解释器属性。请参阅Apache Zeppelin文档中的更多详细信息。
例如,您可以添加zeppelin.SparkInterpreter.precode属性并将一些代码放入Value字段以在解释器 init 上执行。
此代码在解释器初始化后在注释中解决:
在“依赖项”区域中添加要与所选解释器一起使用的任何库。如果需要,请指定应排除的文件。
单击可更新口译员列表。要重新启动选定的解释器,请单击。
管理存储库
要打开存储库设置,请单击解释器工具栏上的。
您可以刷新存储库列表 ( )、添加新存储库 ( ) 以及删除选定的存储库 ( )。
要添加新存储库,请单击并填写存储库设置:
强制参数:
Id:存储库的唯一名称
Url : 存储库地址
您可以选择设置:
名称:访问存储库的用户名
密码:访问存储库的密码
Host:存储库所在的 HTTP 或 HTTPS 服务器
Port : 存储库服务器的端口
名称和密码:访问存储库服务器的用户凭据
感谢您的反馈意见!