homelab89 Docs Logs Legacy Files ☰ TOC 🌓
guidehomelab 2026-06-28nvidiagpudrivertroubleshooting

NVIDIA 드라이버 다운그레이드 작업 기록

문제 상황

vLLM Docker 컨테이너(vllm/vllm-openai:latest, v0.15.1) 실행 시 아래 에러로 시작 실패:

RuntimeError: Unexpected error from cudaGetDeviceCount().
Error 803: system has unsupported display driver / cuda driver combination

원인 분석

호스트와 컨테이너 간 CUDA 버전 불일치:

항목
호스트 NVIDIA Driver 590.48.01
호스트 CUDA Version 13.1
컨테이너 PyTorch CUDA 12.9
vLLM 이미지 vllm/vllm-openai:latest (v0.15.1)
모델 Qwen/Qwen2.5-7B-Instruct

Driver 580+ (CUDA 13.x 세대)부터 CUDA 12.x와의 하위 호환성이 깨져서 컨테이너 내부의 CUDA 12.9 런타임이 동작하지 않음.

수행한 작업

1. 기존 드라이버 제거

sudo apt-get remove --purge -y nvidia-driver-590-open
sudo apt-get autoremove --purge -y

제거된 패키지:

  • nvidia-driver-590-open 및 관련 590 패키지 전체
  • libnvidia-compute-590, libnvidia-gl-590, nvidia-utils-590

2. 새 드라이버 설치

sudo apt-get install -y nvidia-driver-570-open
  • 설치 버전: 570.211.01 (CUDA 12.8 지원)
  • DKMS 커널 모듈 빌드 완료 (커널 6.17.0-14-generic)
  • 590 펌웨어 잔여분 정리 완료

3. 재부팅

드라이버 변경 적용을 위해 시스템 재부팅 필요.

재부팅 후 확인사항

# 드라이버 버전 확인
nvidia-smi

# vLLM 컨테이너 테스트
docker run --rm --gpus all vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-7B-Instruct --max-model-len 4096

참고

  • Driver 570 (CUDA 12.8)은 vLLM의 CUDA 12.9 런타임과 같은 12.x 계열이므로 호환 가능
  • 만약 여전히 문제가 발생할 경우, CUDA 12.8 이하로 빌드된 vLLM 이미지를 사용하거나 cuda-compat 패키지 설치 검토 필요

Files