azure-gpu-vm掉驱动维修

  1. Azure-GPU-VM故障排查
    1. Azure 官方文档推荐的解决办法。

Azure-GPU-VM故障排查

一个风和日丽的夜晚,我像往常一样打卡Azure上的GPU-VM,玩一些新模型

当我像往常一样输入 nvidia-smi

(base) azureuser@torch-train-1:~/lishun_ws/AI-voice$ nvidia-smi
NVIDIA-SMI couldn't find libnvidia-ml.so library in your system. Please make sure that the NVIDIA Display Driver is properly installed and present in your system.
Please also try adding directory that contains libnvidia-ml.so to your system PATH.

驱动掉了!!

我重新下载驱动重启,都无法解决,陷入脑壳疼的状态

就在我认为只能将重要的数据迁移到其他盘再重新装系统的时候,我突然想起来 有可能是 **Secure Boot **的问题导致我显卡的驱动无法自启动

  1. 先查看一下自己的机器是不是开启了Secure Boot
(base) azureuser@torch-train-1:~/lishun_ws/AI-voice$ mokutil --sb-state
SecureBoot enabled

Azure 官方文档推荐的解决办法

操作步骤:

  1. 停止虚拟机

  2. 在 Azure Portal 上修改设置

    • 打开该虚拟机 → 左侧菜单「设置」→「配置」(Configuration)
    • 找到「安全类型 (Security type)」
    • 将 “安全启动 (Secure Boot)” 关闭
    • 保存配置
  3. 重新启动虚拟机

  4. 登录后验证:

    nvidia-smi
    

具体的操作步骤

image-20251013160547734

重启之后恢复如初

github