NVIDIA 드라이버 다운그레이드 작업 기록
문제 상황
vLLM Docker 컨테이너(vllm/vllm-openai:latest, v0.15.1) 실행 시 아래 에러로 시작 실패:
RuntimeError: Unexpected error from cudaGetDeviceCount().
Error 803: system has unsupported display driver / cuda driver combination
원인 분석
호스트와 컨테이너 간 CUDA 버전 불일치:
| 항목 | 값 |
|---|---|
| 호스트 NVIDIA Driver | 590.48.01 |
| 호스트 CUDA Version | 13.1 |
| 컨테이너 PyTorch CUDA | 12.9 |
| vLLM 이미지 | vllm/vllm-openai:latest (v0.15.1) |
| 모델 | Qwen/Qwen2.5-7B-Instruct |
Driver 580+ (CUDA 13.x 세대)부터 CUDA 12.x와의 하위 호환성이 깨져서 컨테이너 내부의 CUDA 12.9 런타임이 동작하지 않음.
수행한 작업
1. 기존 드라이버 제거
sudo apt-get remove --purge -y nvidia-driver-590-open
sudo apt-get autoremove --purge -y
제거된 패키지:
nvidia-driver-590-open및 관련 590 패키지 전체libnvidia-compute-590,libnvidia-gl-590,nvidia-utils-590등
2. 새 드라이버 설치
sudo apt-get install -y nvidia-driver-570-open
- 설치 버전: 570.211.01 (CUDA 12.8 지원)
- DKMS 커널 모듈 빌드 완료 (커널 6.17.0-14-generic)
- 590 펌웨어 잔여분 정리 완료
3. 재부팅
드라이버 변경 적용을 위해 시스템 재부팅 필요.
재부팅 후 확인사항
# 드라이버 버전 확인
nvidia-smi
# vLLM 컨테이너 테스트
docker run --rm --gpus all vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-7B-Instruct --max-model-len 4096
참고
- Driver 570 (CUDA 12.8)은 vLLM의 CUDA 12.9 런타임과 같은 12.x 계열이므로 호환 가능
- 만약 여전히 문제가 발생할 경우, CUDA 12.8 이하로 빌드된 vLLM 이미지를 사용하거나
cuda-compat패키지 설치 검토 필요