Published on

Ollama mit GPU: CUDA-Setup auf Ubuntu Server

Authors

TL;DR

Ollama mit CUDA-GPU-Beschleunigung auf Ubuntu Server liefert 8x schnellere Token-Generierung als reine CPU-Inferenz. Eine NVIDIA RTX 4090 verarbeitet Llama 3.1 70B mit 42 Tokens/Sekunde. Diese Anleitung zeigt das komplette Setup von CUDA-Treiber bis Produktiv-Konfiguration, inklusive VRAM-Management und Multi-GPU-Betrieb für den Mittelstand.


Warum GPU-Beschleunigung für Ollama unverzichtbar ist

Ollama auf einem CPU-Only-Server erzeugt mit Llama 3.1 8B etwa 12 Tokens pro Sekunde. Für einen einzelnen Benutzer ist das akzeptabel. Bei 10 gleichzeitigen Anfragen sinkt die Geschwindigkeit auf 1-2 Tokens pro Sekunde. Antworten dauern dann 30-45 Sekunden. Für den produktiven Einsatz im Unternehmen ist das untauglich.

Mit einer NVIDIA-GPU und korrekt konfiguriertem CUDA-Setup steigt die Geschwindigkeit auf 45-90 Tokens pro Sekunde. Selbst bei 10 parallelen Nutzern bleibt die Antwortzeit unter 3 Sekunden. Der Unterschied zwischen einem Spielzeug und einem produktiven Werkzeug.

Leistungsvergleich für Llama 3.1 8B:

KonfigurationTokens/Sek.10 User parallelKosten/Monat
CPU (Xeon 32 Kerne)121-2€89 (Hetzner)
RTX 4060 Ti (16 GB)488-10€149 (Hetzner)
RTX 4090 (24 GB)8718-22€289 (Hetzner)
A100 (80 GB)13440+€890 (Hetzner)

CUDA-Treiber auf Ubuntu Server installieren

Voraussetzung: Ubuntu 22.04 LTS oder 24.04 LTS Server-Installation mit SSH-Zugang und einer NVIDIA-GPU. Folgende Schritte setzen ein frisches System voraus.

Schritt 1: Nouveau-Treiber deaktivieren

# CUDA-Setup Checkliste
voraussetzungen:
  os: "Ubuntu 22.04 LTS oder 24.04 LTS"
  gpu: "NVIDIA mit Compute Capability >= 7.0"
  ram: "Mindestens 16 GB System-RAM"
  disk: "50 GB freier Speicher für Modelle"

schritt_1_nouveau_deaktivieren:
  datei: "/etc/modprobe.d/blacklist-nouveau.conf"
  inhalt: |
    blacklist nouveau
    options nouveau modeset=0
  befehl: "sudo update-initramfs -u && sudo reboot"

schritt_2_cuda_toolkit:
  version: "CUDA 12.4 (empfohlen für Ollama 0.5+)"
  installation: |
    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
    sudo dpkg -i cuda-keyring_1.1-1_all.deb
    sudo apt-get update
    sudo apt-get install -y cuda-toolkit-12-4
  pfad_setzen: |
    echo 'export PATH=/usr/local/cuda-12.4/bin:$PATH' >> ~/.bashrc
    echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

schritt_3_verifizierung:
  nvidia_smi: "nvidia-smi  # GPU-Status und Treiberversion"
  nvcc: "nvcc --version  # CUDA-Compiler-Version"
  erwartete_ausgabe: "Driver Version: 550.xx, CUDA Version: 12.4"

schritt_4_ollama_installieren:
  befehl: "curl -fsSL https://ollama.com/install.sh | sh"
  gpu_test: "ollama run llama3.1:8b 'Sage Hallo'"
  verifizierung: "ollama ps  # Zeigt GPU-Zuordnung"

Schritt 2: CUDA Toolkit installieren

Nach dem Neustart installieren Sie das CUDA Toolkit von NVIDIAs offiziellem Repository. Verwenden Sie immer das Repository statt manueller Downloads. So erhalten Sie automatische Sicherheitsupdates.

Die Installation dauert 5-10 Minuten. Nach dem Setzen der Umgebungsvariablen prüfen Sie mit nvidia-smi, ob der Treiber korrekt lädt. Die Ausgabe zeigt GPU-Modell, Treiberversion und VRAM-Auslastung.

Schritt 3: Ollama mit GPU-Erkennung starten

Nach der Ollama-Installation erkennt das System die GPU automatisch. Beim ersten Modell-Download (ollama pull llama3.1:8b) lädt Ollama die GPU-optimierten Schichten. Mit ollama ps prüfen Sie, ob das Modell tatsächlich auf der GPU läuft. Die Spalte „Processor" zeigt „100% GPU" bei korrekter Konfiguration.

VRAM-Management: Das richtige Modell für Ihre GPU

Der häufigste Fehler beim Ollama-GPU-Setup: Ein zu großes Modell für den verfügbaren VRAM. Ollama lagert dann Schichten auf die CPU aus (Offloading), was die Performance drastisch senkt.

VRAM-Bedarf nach Modellgröße:

ModellParameterVRAM (Q4_K_M)Empfohlene GPU
Llama 3.1 8B8 Mrd.5,2 GBRTX 4060 (8 GB)
Mistral 22B22 Mrd.14 GBRTX 4090 (24 GB)
Llama 3.1 70B70 Mrd.42 GB2x RTX 4090 oder A100
Llama 3.1 405B405 Mrd.240 GB4x A100 (80 GB)

Für den Mittelstand empfehlen wir den Einstieg mit Llama 3.1 8B auf einer RTX 4060 Ti. Die Kosten liegen bei €149/Monat für einen dedizierten GPU-Server bei Hetzner. Damit bedienen Sie 10-15 gleichzeitige Nutzer ohne Wartezeiten.

Produktiv-Konfiguration mit Systemd

Für den stabilen Dauerbetrieb konfigurieren Sie Ollama als Systemd-Service mit automatischem Neustart und GPU-Zuordnung. Die Standard-Installation erstellt bereits einen Service, der angepasst werden muss.

Wichtige Einstellungen für den Produktivbetrieb:

  • OLLAMA_NUM_PARALLEL=4: Anzahl gleichzeitiger Anfragen pro Modell. Erhöhen Sie diesen Wert basierend auf Ihrem VRAM.
  • OLLAMA_MAX_LOADED_MODELS=2: Wie viele Modelle gleichzeitig im VRAM bleiben. Bei 24 GB VRAM passen zwei 8B-Modelle.
  • OLLAMA_KEEP_ALIVE=30m: Wie lange ein Modell nach der letzten Anfrage im VRAM bleibt. 30 Minuten ist ein guter Kompromiss zwischen Antwortzeit und VRAM-Effizienz.

Überwachen Sie die GPU-Auslastung mit watch -n 1 nvidia-smi. Im Normalbetrieb sollte die GPU-Auslastung zwischen 20-80% liegen. Dauerhaft über 90% deutet auf Überlastung hin.

Multi-GPU-Setup für größere Modelle

Ollama unterstützt Multi-GPU nativ. Bei zwei RTX 4090 verteilt Ollama die Modellschichten automatisch auf beide GPUs. Für das Llama 3.1 70B Modell benötigen Sie mindestens 42 GB VRAM, was mit zwei RTX 4090 (je 24 GB = 48 GB) gut abgedeckt ist.

Die GPU-Zuordnung steuern Sie über die Umgebungsvariable CUDA_VISIBLE_DEVICES. So können Sie bei drei GPUs eine exklusiv für ein bestimmtes Modell reservieren und die anderen beiden für ein größeres Modell kombinieren.

Für Cluster-Setups mit mehreren Servern lesen Sie unseren separaten Artikel zu Ollama Load Balancing.

Performance-Tuning für den Unternehmenseinsatz

Drei Stellschrauben bestimmen die Praxisleistung:

1. Quantisierung wählen: Q4_K_M bietet den besten Kompromiss aus Qualität und Geschwindigkeit. Q8_0 liefert bessere Qualität bei doppeltem VRAM-Bedarf. Für die meisten Unternehmensanwendungen (Dokumentenzusammenfassung, Chatbot, E-Mail-Entwürfe) reicht Q4_K_M.

2. Context-Window begrenzen: Standardmäßig nutzt Ollama ein 2048-Token-Fenster. Für RAG-Anwendungen erhöhen Sie auf 8192 über den Modelfile. Jede Verdopplung des Context-Windows verdoppelt den VRAM-Bedarf für den KV-Cache.

3. Flash Attention aktivieren: Ab CUDA 12.x und Ollama 0.5+ ist Flash Attention standardmäßig aktiv. Es reduziert den VRAM-Bedarf des KV-Cache um 40-60% und beschleunigt die Inferenz bei langen Kontexten.

Monitoring und Fehlerdiagnose

Typische Probleme und Lösungen im GPU-Betrieb:

Problem: "CUDA out of memory" – Das Modell ist zu groß für den VRAM. Lösung: Kleineres Modell verwenden oder OLLAMA_NUM_PARALLEL reduzieren.

Problem: GPU-Auslastung bei 0% trotz laufender Anfragen – CUDA-Treiber nicht korrekt installiert. Lösung: nvidia-smi prüfen, bei Fehler CUDA neu installieren.

Problem: Langsame Antworten trotz GPU – Offloading aktiv, weil nicht alle Schichten in den VRAM passen. Lösung: In den Ollama-Logs nach "offloading" suchen und Modellgröße reduzieren.

Für eine umfassende KI-Einführung im Unternehmen empfehlen wir, mit dem GPU-Setup zu beginnen und schrittweise weitere Anwendungsfälle zu erschließen.

FAQ

Welche NVIDIA-GPU eignet sich am besten für Ollama im Mittelstand?

Die RTX 4060 Ti mit 16 GB VRAM bietet das beste Preis-Leistungs-Verhältnis. Sie kostet €449 und verarbeitet 8B-Modelle mit 48 Tokens/Sekunde. Für größere Modelle greifen Sie zur RTX 4090 mit 24 GB.

Funktioniert Ollama auch mit AMD-GPUs unter Ubuntu?

Ollama unterstützt AMD ROCm ab Version 0.4. Die Performance liegt etwa 20-30% unter vergleichbaren NVIDIA-GPUs. CUDA bleibt die stabilere Option für den Produktivbetrieb.

Wie viel Strom verbraucht ein GPU-Server im Dauerbetrieb?

Eine RTX 4090 verbraucht unter Last ca. 350 Watt, im Idle 25 Watt. Bei durchschnittlicher Nutzung rechnen Sie mit 80-120 kWh/Monat, also €25-40 Stromkosten.

Kann ich einen Consumer-GPU-Server in der Firma betreiben?

Ja. Für einen einzelnen Server mit 1-2 GPUs genügt eine normale Steckdose (230V/16A). Achten Sie auf ausreichende Belüftung und Raumtemperatur unter 30°C.

Brauche ich CUDA-Programmierkenntnisse für das Ollama-Setup?

Nein. Ollama abstrahiert die CUDA-Schnittstelle vollständig. Sie installieren den CUDA-Treiber und das Toolkit, den Rest erledigt Ollama automatisch.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)