在gn5实例上怎样部署NGC环境

在gn5实例上怎样部署NGC环境?

本文以搭建TensorFlow深度学习框架为例详细介绍如何在gn5实例上搭建NGC环境。
在开始搭建TensorFlow环境之前,必须先完成以下工作:
注册阿里云账号,并完成 实名认证 。
登录 NGC网站,注册NGC账号。
登录 NGC网站,获取NGC API key并保存到本地。登录NGC容器环境时需要验证您的NGC API Key。

操作步骤
1、创建gn5实例。参考 创建ECS实例 创建一台gn5实例,注意以下配置信息:
地域:只能选择 华北1、华北2、华北3、华北5、华东1、华东2、华南1。
实例:选择gn5实例规格。
镜像:单击 镜像市场,在弹出对话框里,找到 NVIDIA GPU Cloud VM Image 后,单击 使用。
公网带宽:选择 分配公网IP地址。
安全组:选择一个安全组。安全组里必须开放 TCP 22 端口。如果您的实例需要支持HTTPS或 DIGITS 6 服务,必须开放TCP 443(用于HTTPS)或TCP 5000(用于DIGITS 6)端口。
ECS实例创建成功后,登录ECS管理控制台,记录实例的公网IP地址。
2、连接ECS实例:根据创建实例时选择的登录凭证,使用密码验证连接ECS实例 或者 使用SSH密钥对验证连接ECS实例 。
3、按界面提示输入NGC官网获取的NGC API Key后按回车键,即可登录NGC容器环境。
4、运行 nvidia-smi。您能查看当前GPU的信息,包括GPU型号、驱动版本等。
5、按以下步骤搭建TensorFlow环境:
登录 NGC网站,找到TensorFlow镜像页面,获取 docker pull 命令。
下载TensorFlow镜像。
docker pull nvcr.io/nvidia/tensorflow:18.03-py3
查看下载的镜像。
docker image ls
运行容器,完成TensorFlow开发环境的部署。
nvidia-docker run --rm -it nvcr.io/nvidia/tensorflow:18.03-py3
6、选择以下任一种方式测试TensorFlow:
简单测试TensorFlow。

如果TensorFlow正确加载了GPU设备,返回结果。

下载TensorFlow模型并测试TensorFlow。
git clone /tensorflow/models.git
cd models/tutorials/image/alexnet
python alexnet_benchmark.py --batch_size 128 --num_batches 100
7、保存TensorFlow镜像的修改。否则,下次登录时配置会丢失。

标签