Slow is better than NOTHING

리눅스/Ubuntu16.04

[CUDA ERROR] nvidia-smi has failed because it couldn't communicate with the nvidia driver

Jeff_Kang 2021. 7. 10. 00:27
반응형

딥러닝을 하시는 분들이 서버를 재부팅하는 과정에서 종종 볼 수 있는 ERROR 문구입니다.

 nvidia-smi has failed because it couldn't communicate with the nvidia driver

nvidia 그래픽 드라이버가 재부팅 과정에서 자동으로 업데이트를 하거나 코드가 불완전하게 종료되어 다음과같은 오류문구가 발생합니다. 로컬에 기존의 nvidia 드라이버가 있다면, 

$ sudo apt remove nvidia-driver-{$version}
$ sudo autoremove
$ sudo apt-get install nvidia-driver-{$version}

명령어를 통해 새롭게 드라이버를 설치해주면 됩니다.
위 방법이 안되시거나, 기존 드라이버 정보를 찾을 수 없는 경우 아래와 같은 방법을 시도해보시면 좋을 것 같습니ㅏㄷ.


1. 설치된 그래픽 카드 확인

lshw -C display

다음과 같이 2개의 NVIDIA 그래픽 카드가 인식되는 것을 확인합니다.

 

2. 설치된 driver 자동 검색

sudo ubuntu-drivers devices

설치된 Nvidia-driver 버전을 확인합니다. 이전 설치 버전을 아신다면, 해당 버전을 설치해주면 되지만 모르는 경우 다음과 같이 "recommend"라는 권장 사항 드라이버를 설치하면 됩니다.

3. 권장 driver 설치

sudo ubuntu-drivers autoinstall

4. 재부팅(Reboot)

권장설치 후, 재부팅을 하면 정상적으로 드라이버가 인식됩니다.

반응형