Azure-GPU-VM故障排查
一个风和日丽的夜晚,我像往常一样打卡Azure上的GPU-VM,玩一些新模型
当我像往常一样输入 nvidia-smi
(base) azureuser@torch-train-1:~/lishun_ws/AI-voice$ nvidia-smi
NVIDIA-SMI couldn't find libnvidia-ml.so library in your system. Please make sure that the NVIDIA Display Driver is properly installed and present in your system.
Please also try adding directory that contains libnvidia-ml.so to your system PATH.
驱动掉了!!
我重新下载驱动重启,都无法解决,陷入脑壳疼的状态
就在我认为只能将重要的数据迁移到其他盘再重新装系统的时候,我突然想起来 有可能是 **Secure Boot **的问题导致我显卡的驱动无法自启动
- 先查看一下自己的机器是不是开启了Secure Boot
(base) azureuser@torch-train-1:~/lishun_ws/AI-voice$ mokutil --sb-state
SecureBoot enabled
Azure 官方文档推荐的解决办法。
操作步骤:
-
停止虚拟机
-
在 Azure Portal 上修改设置
- 打开该虚拟机 → 左侧菜单「设置」→「配置」(Configuration)
- 找到「安全类型 (Security type)」
- 将 “安全启动 (Secure Boot)” 关闭
- 保存配置
-
重新启动虚拟机
-
登录后验证:
nvidia-smi
具体的操作步骤
重启之后恢复如初