- Published on
Ollama mit GPU: CUDA-Setup auf Ubuntu Server
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ollama mit CUDA-GPU-Beschleunigung auf Ubuntu Server liefert 8x schnellere Token-Generierung als reine CPU-Inferenz. Eine NVIDIA RTX 4090 verarbeitet Llama 3.1 70B mit 42 Tokens/Sekunde. Diese Anleitung zeigt das komplette Setup von CUDA-Treiber bis Produktiv-Konfiguration, inklusive VRAM-Management und Multi-GPU-Betrieb für den Mittelstand.
Warum GPU-Beschleunigung für Ollama unverzichtbar ist
Ollama auf einem CPU-Only-Server erzeugt mit Llama 3.1 8B etwa 12 Tokens pro Sekunde. Für einen einzelnen Benutzer ist das akzeptabel. Bei 10 gleichzeitigen Anfragen sinkt die Geschwindigkeit auf 1-2 Tokens pro Sekunde. Antworten dauern dann 30-45 Sekunden. Für den produktiven Einsatz im Unternehmen ist das untauglich.
Mit einer NVIDIA-GPU und korrekt konfiguriertem CUDA-Setup steigt die Geschwindigkeit auf 45-90 Tokens pro Sekunde. Selbst bei 10 parallelen Nutzern bleibt die Antwortzeit unter 3 Sekunden. Der Unterschied zwischen einem Spielzeug und einem produktiven Werkzeug.
Leistungsvergleich für Llama 3.1 8B:
| Konfiguration | Tokens/Sek. | 10 User parallel | Kosten/Monat |
|---|---|---|---|
| CPU (Xeon 32 Kerne) | 12 | 1-2 | €89 (Hetzner) |
| RTX 4060 Ti (16 GB) | 48 | 8-10 | €149 (Hetzner) |
| RTX 4090 (24 GB) | 87 | 18-22 | €289 (Hetzner) |
| A100 (80 GB) | 134 | 40+ | €890 (Hetzner) |
CUDA-Treiber auf Ubuntu Server installieren
Voraussetzung: Ubuntu 22.04 LTS oder 24.04 LTS Server-Installation mit SSH-Zugang und einer NVIDIA-GPU. Folgende Schritte setzen ein frisches System voraus.
Schritt 1: Nouveau-Treiber deaktivieren
# CUDA-Setup Checkliste
voraussetzungen:
os: "Ubuntu 22.04 LTS oder 24.04 LTS"
gpu: "NVIDIA mit Compute Capability >= 7.0"
ram: "Mindestens 16 GB System-RAM"
disk: "50 GB freier Speicher für Modelle"
schritt_1_nouveau_deaktivieren:
datei: "/etc/modprobe.d/blacklist-nouveau.conf"
inhalt: |
blacklist nouveau
options nouveau modeset=0
befehl: "sudo update-initramfs -u && sudo reboot"
schritt_2_cuda_toolkit:
version: "CUDA 12.4 (empfohlen für Ollama 0.5+)"
installation: |
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y cuda-toolkit-12-4
pfad_setzen: |
echo 'export PATH=/usr/local/cuda-12.4/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
schritt_3_verifizierung:
nvidia_smi: "nvidia-smi # GPU-Status und Treiberversion"
nvcc: "nvcc --version # CUDA-Compiler-Version"
erwartete_ausgabe: "Driver Version: 550.xx, CUDA Version: 12.4"
schritt_4_ollama_installieren:
befehl: "curl -fsSL https://ollama.com/install.sh | sh"
gpu_test: "ollama run llama3.1:8b 'Sage Hallo'"
verifizierung: "ollama ps # Zeigt GPU-Zuordnung"
Schritt 2: CUDA Toolkit installieren
Nach dem Neustart installieren Sie das CUDA Toolkit von NVIDIAs offiziellem Repository. Verwenden Sie immer das Repository statt manueller Downloads. So erhalten Sie automatische Sicherheitsupdates.
Die Installation dauert 5-10 Minuten. Nach dem Setzen der Umgebungsvariablen prüfen Sie mit nvidia-smi, ob der Treiber korrekt lädt. Die Ausgabe zeigt GPU-Modell, Treiberversion und VRAM-Auslastung.
Schritt 3: Ollama mit GPU-Erkennung starten
Nach der Ollama-Installation erkennt das System die GPU automatisch. Beim ersten Modell-Download (ollama pull llama3.1:8b) lädt Ollama die GPU-optimierten Schichten. Mit ollama ps prüfen Sie, ob das Modell tatsächlich auf der GPU läuft. Die Spalte „Processor" zeigt „100% GPU" bei korrekter Konfiguration.
VRAM-Management: Das richtige Modell für Ihre GPU
Der häufigste Fehler beim Ollama-GPU-Setup: Ein zu großes Modell für den verfügbaren VRAM. Ollama lagert dann Schichten auf die CPU aus (Offloading), was die Performance drastisch senkt.
VRAM-Bedarf nach Modellgröße:
| Modell | Parameter | VRAM (Q4_K_M) | Empfohlene GPU |
|---|---|---|---|
| Llama 3.1 8B | 8 Mrd. | 5,2 GB | RTX 4060 (8 GB) |
| Mistral 22B | 22 Mrd. | 14 GB | RTX 4090 (24 GB) |
| Llama 3.1 70B | 70 Mrd. | 42 GB | 2x RTX 4090 oder A100 |
| Llama 3.1 405B | 405 Mrd. | 240 GB | 4x A100 (80 GB) |
Für den Mittelstand empfehlen wir den Einstieg mit Llama 3.1 8B auf einer RTX 4060 Ti. Die Kosten liegen bei €149/Monat für einen dedizierten GPU-Server bei Hetzner. Damit bedienen Sie 10-15 gleichzeitige Nutzer ohne Wartezeiten.
Produktiv-Konfiguration mit Systemd
Für den stabilen Dauerbetrieb konfigurieren Sie Ollama als Systemd-Service mit automatischem Neustart und GPU-Zuordnung. Die Standard-Installation erstellt bereits einen Service, der angepasst werden muss.
Wichtige Einstellungen für den Produktivbetrieb:
- OLLAMA_NUM_PARALLEL=4: Anzahl gleichzeitiger Anfragen pro Modell. Erhöhen Sie diesen Wert basierend auf Ihrem VRAM.
- OLLAMA_MAX_LOADED_MODELS=2: Wie viele Modelle gleichzeitig im VRAM bleiben. Bei 24 GB VRAM passen zwei 8B-Modelle.
- OLLAMA_KEEP_ALIVE=30m: Wie lange ein Modell nach der letzten Anfrage im VRAM bleibt. 30 Minuten ist ein guter Kompromiss zwischen Antwortzeit und VRAM-Effizienz.
Überwachen Sie die GPU-Auslastung mit watch -n 1 nvidia-smi. Im Normalbetrieb sollte die GPU-Auslastung zwischen 20-80% liegen. Dauerhaft über 90% deutet auf Überlastung hin.
Multi-GPU-Setup für größere Modelle
Ollama unterstützt Multi-GPU nativ. Bei zwei RTX 4090 verteilt Ollama die Modellschichten automatisch auf beide GPUs. Für das Llama 3.1 70B Modell benötigen Sie mindestens 42 GB VRAM, was mit zwei RTX 4090 (je 24 GB = 48 GB) gut abgedeckt ist.
Die GPU-Zuordnung steuern Sie über die Umgebungsvariable CUDA_VISIBLE_DEVICES. So können Sie bei drei GPUs eine exklusiv für ein bestimmtes Modell reservieren und die anderen beiden für ein größeres Modell kombinieren.
Für Cluster-Setups mit mehreren Servern lesen Sie unseren separaten Artikel zu Ollama Load Balancing.
Performance-Tuning für den Unternehmenseinsatz
Drei Stellschrauben bestimmen die Praxisleistung:
1. Quantisierung wählen: Q4_K_M bietet den besten Kompromiss aus Qualität und Geschwindigkeit. Q8_0 liefert bessere Qualität bei doppeltem VRAM-Bedarf. Für die meisten Unternehmensanwendungen (Dokumentenzusammenfassung, Chatbot, E-Mail-Entwürfe) reicht Q4_K_M.
2. Context-Window begrenzen: Standardmäßig nutzt Ollama ein 2048-Token-Fenster. Für RAG-Anwendungen erhöhen Sie auf 8192 über den Modelfile. Jede Verdopplung des Context-Windows verdoppelt den VRAM-Bedarf für den KV-Cache.
3. Flash Attention aktivieren: Ab CUDA 12.x und Ollama 0.5+ ist Flash Attention standardmäßig aktiv. Es reduziert den VRAM-Bedarf des KV-Cache um 40-60% und beschleunigt die Inferenz bei langen Kontexten.
Monitoring und Fehlerdiagnose
Typische Probleme und Lösungen im GPU-Betrieb:
Problem: "CUDA out of memory" – Das Modell ist zu groß für den VRAM. Lösung: Kleineres Modell verwenden oder OLLAMA_NUM_PARALLEL reduzieren.
Problem: GPU-Auslastung bei 0% trotz laufender Anfragen – CUDA-Treiber nicht korrekt installiert. Lösung: nvidia-smi prüfen, bei Fehler CUDA neu installieren.
Problem: Langsame Antworten trotz GPU – Offloading aktiv, weil nicht alle Schichten in den VRAM passen. Lösung: In den Ollama-Logs nach "offloading" suchen und Modellgröße reduzieren.
Für eine umfassende KI-Einführung im Unternehmen empfehlen wir, mit dem GPU-Setup zu beginnen und schrittweise weitere Anwendungsfälle zu erschließen.
FAQ
Welche NVIDIA-GPU eignet sich am besten für Ollama im Mittelstand?
Die RTX 4060 Ti mit 16 GB VRAM bietet das beste Preis-Leistungs-Verhältnis. Sie kostet €449 und verarbeitet 8B-Modelle mit 48 Tokens/Sekunde. Für größere Modelle greifen Sie zur RTX 4090 mit 24 GB.
Funktioniert Ollama auch mit AMD-GPUs unter Ubuntu?
Ollama unterstützt AMD ROCm ab Version 0.4. Die Performance liegt etwa 20-30% unter vergleichbaren NVIDIA-GPUs. CUDA bleibt die stabilere Option für den Produktivbetrieb.
Wie viel Strom verbraucht ein GPU-Server im Dauerbetrieb?
Eine RTX 4090 verbraucht unter Last ca. 350 Watt, im Idle 25 Watt. Bei durchschnittlicher Nutzung rechnen Sie mit 80-120 kWh/Monat, also €25-40 Stromkosten.
Kann ich einen Consumer-GPU-Server in der Firma betreiben?
Ja. Für einen einzelnen Server mit 1-2 GPUs genügt eine normale Steckdose (230V/16A). Achten Sie auf ausreichende Belüftung und Raumtemperatur unter 30°C.
Brauche ich CUDA-Programmierkenntnisse für das Ollama-Setup?
Nein. Ollama abstrahiert die CUDA-Schnittstelle vollständig. Sie installieren den CUDA-Treiber und das Toolkit, den Rest erledigt Ollama automatisch.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Ollama auf Ubuntu: LLM lokal in 15 Minuten
Ollama auf Ubuntu installieren: Lokales LLM in 15 Minuten. Llama 3.1 auf dem eigenen Server für €0 API-Kosten und volle DSGVO-Kontrolle.
KI-Server kaufen: GPU-Guide für unter €10.000
KI-Server für den Mittelstand unter €10.000: GPU-Vergleich, 3 Konfigurationen und Benchmarks. RTX 4090 vs. A4000 vs. L4 mit Einkaufsliste.
Ollama Cluster: Mehrere Server load-balancen
Ollama Cluster mit Load Balancing: 200+ gleichzeitige Nutzer, automatisches Failover und horizontale Skalierung. Nginx-Setup für den Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)