클러스터 부활

NVIDIA 드라이버, CUDA 설치 이후 전원 꺼짐(절전모드) 해결

킹주용이다 2023. 2. 8. 16:38

스파크, 파이스파크 구성을 완료하고 GPU 분산학습을 찍먹해보고자 NVIDIA, CUDA 등 필요한 환경을 구성하던 중

클러스터에서 정상적으로 GPU를 할당하고, 사용되는 것을 확인한 후 집에 다녀왔습니다.

너무 순탄하게 흘러가더라구요.

다녀와보니

이렇게 GPU가 없는 10번 노드를 제외한 모든 노드들이 취침중이었습니다

이전에 전원 문제로 인해 서버랙 차단기가 내려가 모든 노드가 죽은 경험은 있었지만

이렇게 꺼졌다는 것은.. 제가 GPU 로드 과정에서 무언가 잘못을 했다는 얘기겠지요

 

처음에는 전원 문제인 것으로 판단하고 다시 켜보고..

그래도 다시 꺼져서 또 켜보고.. 혹시 절전모드가 활성화 되어있나 확인도 해보고

무슨 방법을 써도 모든 노드가 15분 정도면 꺼지고 말았습니다.

 

혹시나 하는 마음에 아무 노드에 모니터를 연결한 순간

퍼온 사진입니다

이런 당황스러운 화면이 저를 맞이했습니다.

GUI가 생겼네? 왜 ? 어떻게 ? 이건 몰랐는데

 

제가 했던 생각은

'GUI이니 절전모드가 있을 것이고, 별개로 작동할 것이다' 였습니다

setting -> power -> black screen - never 로 설정해주고

잠시 기다렸습니다. 하지만 it didn't work for me....

 

아래의 명령어로 해결했습니다.

sudo systemctl status sleep.target suspend.target hibernate.target hybrid-sleep.target

위는 확인하는 명령어인데, GUI에서 black screen을 해제하고 나니 status가 변경되었습니다.

아래의 명령어로 사용 해제해줍니다.

sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target