开始前¶
Driverless AI 可在仅使用 CPU 的计算机上运行,亦可在使用 CPU 和 GPU 的计算机上运行。为获得最佳(以及设计预期的)体验,请在支持 GPU 和 CUDA 的现代化数据中心硬件上安装 Driverless AI。特征工程和模型构建分别主要在 CPU 和 GPU 上执行。因此,Driverless AI 可受益于具有足够系统内存的多核 CPU 和具有足够 RAM 的 GPU。为获得最佳结果,我们建议使用 Pascal 或 Volta 架构的 GPU。(请注意,支持使用 EC2 中提供的旧版 K80 和 M60 GPU,它们非常便于使用,只是速度较慢。)使用 GPU 尤其能为图像和自然语言处理用例带来显著的提升。
Driverless AI 支持本地身份验证、LDAP 身份验证和 PAM 身份验证。可通过设置环境变量或通过 config.toml 文件来配置身份验证。更多信息,请参阅 身份验证方式 一节。请注意,默认的身份验证方式为 “不验证.”
Driverless AI 还支持访问 HDFS、S3、Google Cloud Storage、Google Big Query、KDB、Minio 和 Snowflake。可通过设置数据连接器的环境变量或通过 config.toml 文件来配置对以上数据源的支持。更多信息,请参阅 数据连接器 一节。
存储空间需求¶
本机安装的存储空间需求¶
Driverless AI 需要至少 5 GB 的系统内存方可启动实验,需要至少 5 GB 的磁盘空间方可运行小型实验。请注意,可在 config.toml 文件中更改这些限制,我们建议您配备足够的系统 CPU 内存(64 GB 或以上)和 1 TB 的可用磁盘空间。
Docker 安装的存储空间需求¶
对于 Docker 安装,我们建议要有 1 TB 的可用磁盘空间。Driverless AI 会占用大约 38 GB 的空间。此外,在安装过程中,解压/临时文件需要在同一 Linux 挂载 /var 目录中占用一定的空间。Driverless AI 运行后,Docker 容器中的挂载便可指向其他文件系统挂载点。
GPU 存储空间需求¶
如果您使用 GPU 运行 Driverless AI,请确保 GPU 的计算能力大于或等于 3.5 并且至少有 4 GB 的 RAM。如果未达到这些要求,则 Driverless AI 将切换至仅使用 CPU 的模式。
储存实验所需的存储空间¶
我们建议您的 Driverless tmp 目录至少有 500 GB 到 1 TB 的空间。(Driverless) tmp 目录用于存储所有实验和所有数据集。我们还建议您使用固态硬盘(最好是使用 NVMe 固态硬盘)。
Linux 中的虚拟内存设置¶
如果您在使用 Linux 系统的计算机上运行 Driverless AI,我们建议将过量使用内存设置为 0。可使用以下命令更改此设置:
sudo sh -c "/bin/echo 0 > /proc/sys/vm/overcommit_memory"
此默认值表明 Linux 内核可自由地过量使用内存。如果将此值设置为 2,则 Linux 内核不会过量使用内存。在后一种情况中,Driverless AI 的内存需求可能会超过内存分配限制并阻止实验完成。
每个实验的内存需求¶
根据经验,每个实验的内存需求大约为数据集大小的 5 到 10 倍。数据集的大小可按照行数 x 列数 x 4 字节来估算;如果数据中存在文本,则每个元素会需要更多字节。
备份策略¶
Driverless AI tmp 目录用于存储所有实验工件,例如部署工件和 MLI。此目录还用于存储用于追踪 Driverless 工件使用者的 master.db 数据库。请注意,除 Driverless AI 自动添加的内容外,不应在 tmp 文件夹中添加或删除任何文件。
我们建议定期停止 Driverless AI 并将 Driverless AI tmp 目录进行备份,以确保有 Driverless AI 的状态副本能用于您可能需要恢复至先前状态的实例。
升级策略¶
升级 Driverless AI 时,请注意:
此版本不支持 Driverless 1.7.0 版及更低版本的实验和 MLI 模型。
我们建议在升级前执行以下步骤:
构建 MLI 模型:如果您想要在未来的 Driverless AI 版本中继续解释模型,请务必在升级前对此模型上运行 MLI 作业。如果您当前版本的已解释模型列表中显示有此 MLI 作业,则在升级后将保留。
构建 MOJO 管道:升级前,对所有必要模型构建 MOJO 管道。
停止 Driverless AI 并将备份 Driverless AI** tmp 目录。
在升级过程中,将从 /etc/dai/User.conf and /etc/dai/Group.conf 继承服务用户与用户组权限。升级期间,您无需手动指定 DAI_USER 或 DAI_GROUP 环境变量。
请注意:Driverless AI 不支持从新版本到旧版本的数据迁移。如果您在升级后回退至使用旧版本的 Driverless AI,则新版本的 master.db 文件将不能与旧版本的 Driverless AI 兼容使用。因此,我们建议保存一份旧版本的 ‘tmp’ 目录副本,以完全还原旧版本的 Driverless AI 状态。
其他注意事项¶
受支持的浏览器¶
Driverless AI 在 Chrome 和 Firefox 上进行了广泛测试。为获得最佳用户体验,我们建议使用最新版本的 Chrome。如果使用其他浏览器或较低版本的 Chrome 和/或 Firefox,可能会遇到问题。
使用或不使用 sudo
¶
Driverless RPM 和 DEB 安装需要使用 sudo
命令。TARSH 安装则无需使用``sudo``命令便可完成。
文档中的某些安装步骤可能会在预置其他命令时显示 sudo
. 请注意,并非总是需要使用``sudo``.
关于 Docker 配置的注意事项 (ulimit
)¶
使用 Docker 运行 Driverless AI 时,建议使用 docker run` `的 ``--ulimit
参数来配置``ulimit``选项。以下示例展示了如何配置这些选项:
--ulimit nproc=65535:65535 \
--ulimit nofile=4096:8192 \
请参阅 https://docs.docker.com/engine/reference/commandline/run/#set-ulimits-in-container—ulimit,了解更多关于这些选项的信息。
关于 nvidia-docker 1.0 的注意事项¶
如果您已安装 nvidia-docker 1.0,则需要移除它和现有的所有 GPU 容器。更多信息,请参阅 https://github.com/NVIDIA/nvidia-docker/blob/master/README.md。
Nvidia-smi
已被弃用¶
NVIDIA 已弃用 nvidia-smi
命令。更多信息,请参阅 https://github.com/nvidia/nvidia-docker#upgrading-with-nvidia-docker2-deprecated。安装步骤已进行更新,可启用 GPU 的持久模式。
PowerPC 用户需要新的 nvidia-container-runtime-hook
¶
PowerPC 用户现在需要在于 Docker 中运行时安装 nvidia-container-runtime-hook
. 更多信息,请参阅 https://github.com/nvidia/nvidia-docker#rhel-docker。IBM Docker 安装步骤已进行更新,以反映此信息。
关于 CUDA 版本的注意事项¶
您的主机环境必须有 CUDA 10.0 或更高版本,并安装有 NVIDIA 驱动程序 (>= 440.82)(仅 GPU)。Driverless AI 自带 CUDA 库,但是主机环境中必须有驱动程序。前往 https://www.nvidia.com/Download/index.aspx, 获取最新的 NVIDIA Tesla V/P/K 系列驱动程序。
关于身份验证的注意事项¶
Driverless AI 中的默认身份验证设置为 “不验证”。在这种情况下,Driverless AI 将接受任何登录名和密码组合,它不会验证所指定的登录 ID 的密码是否正确,并将以登录 ID 所指定用户的身份连接至系统。这适用于所有实例,包括 Cloud、Docker 和本机实例。
我们建议您配置身份验证。Driverless AI 提供多个身份验证选项,包括 LDAP、PAM、“本地”和“无”。请参阅 身份验证方式,了解如何启用其他身份验证方式。
请注意:Driverless AI 还可与 IBM Spectrum Conductor 结合使用,并支持 Conductor 身份验证。请联系 sales@h2o.ai,了解更多关于使用 IBM Spectrum Conductor 身份验证的信息。
关于主数据库文件的注意事项¶
master.db 文件将追踪 DAI tmp 目录中 Driverless AI 工件的使用者。请注意,如果您运行两个版本的 Driverless AI,新版本的 master.db 文件将不能与旧版本的 Driverless AI 兼容使用。