- Published on
KI-Server selbst bauen: GPU-Workstation für LLMs 2026
- Authors

- Name
- Phillip Pham
- @ddppham
Eigene GPU-Workstation für lokale LLMs zusammenbauen
TL;DR
Eine LLM-Workstation zum Selbstbau kostet ab €1.800 (Einstieg, 7B-13B) bis €12.000 (70B-fähig). Der teuerste Posten ist die GPU: Ihr VRAM entscheidet, welche Modellgröße läuft. Faustregel für Q4-Modelle: VRAM (GB) ≈ Parameter (Mrd.) × 0,5 × 1,2 Overhead. 70B braucht 48 GB oder zwei 24-GB-Karten.
Warum der VRAM alles entscheidet — und nicht der Preis der GPU
Die häufigste Fehlentscheidung beim Eigenbau: zu viel Geld für CPU und RAM, zu wenig für die GPU. Bei lokalen Large Language Models ist die Rechnung simpel. Passt das quantisierte Modell nicht komplett in den Grafikspeicher, lagert Ollama oder vLLM Teile in den langsamen System-RAM aus. Ergebnis: Statt 40 Token pro Sekunde bekommen Sie 3. Das ist der Unterschied zwischen "produktiv nutzbar" und "unbenutzbar".
Der VRAM-Bedarf lässt sich vorher berechnen. Für ein Q4-quantisiertes Modell (Q4_K_M, der Standard in Ollama):
VRAM (GB) ≈ Parameter (in Mrd.) × 0,5 Byte × 1,2 (Overhead für KV-Cache)
Ein 7B-Modell braucht also grob 4-6 GB, ein 13B-Modell 8-11 GB, ein 70B-Modell rund 40-42 GB. Der 1,2-Faktor deckt den KV-Cache bei etwa 2.000 Token Kontext ab. Wer lange Prompts oder große Kontextfenster fährt, sollte eher mit Faktor 1,4 rechnen.
Konkret bedeutet das für die Kaufentscheidung:
| Modellgröße (Q4) | VRAM-Bedarf | Minimale GPU |
|---|---|---|
| 7B (Llama, Mistral) | ~6 GB | RTX 4060 Ti 16 GB |
| 13B-14B | ~11 GB | RTX 4070 Ti 16 GB |
| 30B-34B | ~20 GB | RTX 4090 24 GB |
| 70B-72B | ~42 GB | RTX 6000 Ada 48 GB oder 2× RTX 4090 |
Wenn Sie heute ein 13B-Modell fahren, aber in sechs Monaten auf 70B wollen, kaufen Sie besser gleich die 48-GB-Karte oder ein Mainboard mit zwei PCIe-x16-Slots. Ein GPU-Upgrade ist teuer, ein Neukauf des ganzen Systems teurer.
Die GPU-Optionen 2026 im Klartext
Der Grafikkartenmarkt für KI teilt sich in zwei Welten: Consumer-Karten (GeForce) und Workstation-Karten (RTX-Serie, ehemals Quadro). Für den Mittelstand ist die ehrliche Antwort: In den meisten Fällen reicht Consumer-Hardware — solange der VRAM passt und Sie kein 24/7-Rechenzentrum betreiben.
RTX 4090 (24 GB, ~€2.500 in Deutschland). Das Preis-Leistungs-Monster für lokale LLMs. 24 GB reichen für alles bis 30B komfortabel, mit Auslagerung auch für 70B (langsam). Der Haken: 450 W TDP und keine ECC-Fehlerkorrektur im Speicher. Für einen Inference-Server im Dauerbetrieb kein Blocker, aber für zertifizierte Umgebungen relevant.
RTX 5090 (32 GB, MSRP ~€2.300). Der Nachfolger mit Blackwell-Architektur und 32 GB GDDR7. Die 8 GB mehr VRAM heben die Grenze für Single-Card-Betrieb spürbar an — 32B-Modelle laufen entspannt, und für 70B bei aggressiver Quantisierung wird es realistischer. Verfügbarkeit und reale Straßenpreise lagen 2026 zeitweise deutlich über MSRP.
RTX 6000 Ada (48 GB, ~€7.060). Die Workstation-Karte für 70B auf einer einzigen GPU. 48 GB ECC-GDDR6, 960 GB/s Speicherbandbreite, nur 300 W TDP. Bei Llama 70B Q4 sind rund 18-28 Token/s realistisch. Teuer, aber Sie sparen sich Multi-GPU-Komplexität und das größere Netzteil.
RTX A6000 (48 GB) und L40S (48 GB). Die A6000 ist der Vorgänger der 6000 Ada, gebraucht oft günstiger zu haben. Die L40S ist die reine Rechenzentrums-Variante mit 48 GB und 864 GB/s Bandbreite — passiv gekühlt, braucht also aktiven Luftstrom im Gehäuse. Beide sinnvoll, wenn Sie ohnehin im Serverschrank landen.
Unsere Empfehlung für 90 % der Mittelstands-Fälle: Eine einzelne RTX 4090 oder 5090. Multi-GPU und Workstation-Karten lohnen erst, wenn 70B-Qualität ein hartes Muss ist oder mehrere Nutzer parallel Anfragen stellen.
Ein Wort zu AMD: Karten wie die Radeon RX 7900 XTX mit 24 GB sind auf dem Papier attraktiv und günstiger. In der Praxis ist das Software-Ökosystem (ROCm) aber immer noch holpriger als NVIDIAs CUDA — viele Inference-Tools laufen out of the box nur auf NVIDIA. Für einen produktiven Server, den jemand warten muss, raten wir aktuell von AMD ab, solange Sie nicht ein Team haben, das ROCm-Probleme selbst debuggen will.
Drei Konfigurationen: vom Einstieg bis 70B-fähig
Diese drei Builds decken die realistischen Szenarien ab. Preise sind deutsche Straßenpreise Mitte 2026, Komponenten als konkrete Klasse genannt — nicht als Werbung für eine Marke.
| Komponente | Einstieg (7B-14B) | Mittelklasse (bis 34B) | Profi (70B) |
|---|---|---|---|
| GPU | RTX 4060 Ti 16 GB (~€480) | RTX 4090 24 GB (~€2.500) | RTX 6000 Ada 48 GB (~€7.060) |
| CPU | Ryzen 7 7700 (8 Kerne, ~€280) | Ryzen 9 7900X (12 Kerne, ~€380) | Threadripper 7960X (24 Kerne, ~€1.400) |
| RAM | 32 GB DDR5 (~€90) | 64 GB DDR5 (~€180) | 128 GB DDR5 ECC (~€520) |
| Mainboard | B650 (~€150) | X670E (~€280) | TRX50 (~€650) |
| Netzteil | 650 W 80+ Gold (~€90) | 1000 W 80+ Gold (~€180) | 1600 W 80+ Platinum (~€380) |
| SSD | 1 TB NVMe (~€70) | 2 TB NVMe (~€130) | 4 TB NVMe (~€280) |
| Kühlung + Gehäuse | Luft, Midi-Tower (~€150) | Luft/AIO, Big-Tower (~€250) | Luft, Airflow-Tower (~€350) |
| Summe (ca.) | ~€1.800 | ~€3.900 | ~€10.640 |
Was diese Zahlen NICHT enthalten: Betriebssystem-Lizenz (Ubuntu Server ist kostenlos), USV und Stromkosten. Eine RTX 4090 unter Volllast zieht bei deutschen Industriestrompreisen rund €0,90 pro Stunde — bei acht Stunden täglich sind das etwa €2.000 im Jahr. Rechnen Sie das in Ihren Business Case ein.
Warum kein reines Consumer-Board für den Profi-Build
Beim 70B-Build mit Workstation-GPU oder Dual-GPU stoßen Consumer-Mainboards an eine physikalische Grenze: PCIe-Lanes. Ein normales Desktop-Board (B650, X670E) hat oft nur einen echten x16-Slot; der zweite läuft elektrisch mit x4 oder teilt sich die Lanes. Für zwei GPUs im Tensor-Parallel-Betrieb kostet das Durchsatz. Threadripper- und Xeon-Plattformen (TRX50, WRX90) liefern dagegen 48 bis 128 PCIe-Lanes — genug für zwei bis vier Karten mit voller Anbindung. Das ist der eigentliche Grund für den Aufpreis, nicht die CPU-Rechenleistung.
CPU, RAM und Netzteil richtig dimensionieren
Bei reiner Inference macht die CPU wenig. Sie lädt das Modell, verteilt Tokens und managt die Anfragen — die eigentliche Rechenlast liegt auf der GPU. Ein aktueller 8-Kerner reicht für einen Single-User-Server locker. Anders sieht es aus, wenn Sie fine-tunen oder viele Modelle parallel laden: Dann helfen mehr Kerne und mehr PCIe-Lanes.
Beim RAM gilt eine simple Regel: mindestens so viel System-RAM wie VRAM, besser das Doppelte. Grund ist das Laden großer Modelle und das Auslagern, wenn der VRAM knapp wird. Für eine 48-GB-GPU sind 96-128 GB RAM eine gesunde Basis. ECC-RAM ist bei Consumer-Builds Kür, bei einem Server, der Wochen durchläuft, Pflicht.
Das Netzteil unterschätzen viele. Die Faustregel:
PSU-Wattzahl ≈ (GPU-TDP × Anzahl) + CPU-TDP + 150 W Puffer, dann × 1,3 Reserve
Eine einzelne RTX 4090 (450 W) mit einem 12-Kern-Ryzen (170 W) landet bei rund 800 W Grundlast — hier ist ein 1000-W-Netzteil die sichere Wahl, nicht 850 W. Wer zwei RTX 4090 betreiben will, braucht 1600 W. Sparen Sie beim Netzteil nicht: Ein knapp dimensioniertes Netzteil führt zu Abstürzen unter Last, die schwer zu diagnostizieren sind. Und achten Sie auf den 12VHPWR-Stecker der aktuellen Karten (bis 600 W über ein Kabel).
Software: Was nach dem Zusammenbau kommt
Die Hardware ist die halbe Miete. Für den Betrieb empfehlen wir Ubuntu Server 24.04 LTS als Basis, die NVIDIA-Treiber plus CUDA-Toolkit, und dann Ollama oder vLLM als Inference-Layer. Für einen einzelnen Server mit ein paar Nutzern ist Ollama in zehn Minuten eingerichtet — Details dazu in unserer Ollama-Installationsanleitung für Ubuntu. Für höheren Durchsatz und mehr parallele Nutzer skaliert vLLM besser.
Ein Kurz-Check nach dem ersten Boot:
# GPU vom Treiber erkannt?
nvidia-smi
# Ollama installieren und ein Modell ziehen
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
# Läuft es auf der GPU? (VRAM-Auslastung prüfen)
ollama run llama3.1:8b "Teste die Antwortgeschwindigkeit."
nvidia-smi # in zweitem Terminal während der Antwort
Sehen Sie im nvidia-smi unter "Memory-Usage" die belegten Gigabyte steigen und die GPU-Auslastung auf ~100 % gehen, läuft alles korrekt auf der Grafikkarte. Bleibt die GPU bei 0 % und die CPU-Last steigt, greift der Fallback auf den Prozessor — dann stimmt etwas mit Treiber oder Modellgröße nicht.
Ein praktischer Tipp aus vielen Setups: Testen Sie direkt nach dem Aufbau die Token-Geschwindigkeit mit ollama run --verbose. Der Wert "eval rate" in Tokens pro Sekunde ist Ihre wichtigste Benchmark-Zahl. Liegt sie deutlich unter dem, was für Ihre GPU üblich ist (eine RTX 4090 sollte ein 7B-Modell mit 80+ Token/s fahren), ist meist der Kontext zu groß gewählt oder das Modell wird teilweise ausgelagert. Prüfen Sie dann, ob die gewählte Quantisierung wirklich in den VRAM passt.
Ob sich der Eigenbau gegenüber Cloud-APIs rechnet, hängt an Ihrer Auslastung. Unsere Rechnung dazu steht im Kosten-Guide für Self-Hosted LLMs. Kurzfassung: Bei konstanter Nutzung über 6-12 Monate schlägt der eigene Server die Cloud fast immer — bei sporadischer Nutzung selten.
Selbstbau oder fertig kaufen?
Ehrliche Einschätzung: Der Selbstbau spart 15-25 % gegenüber einem konfigurierten Fertigsystem und gibt Ihnen volle Kontrolle über die Komponenten. Der Preis dafür ist Zeit und Verantwortung — bei einem Defekt haben Sie keinen einzelnen Ansprechpartner, sondern sieben Hersteller. Für IT-Abteilungen mit Hardware-Erfahrung ist das kein Problem. Wer Wert auf Support-Vertrag und Vor-Ort-Garantie legt, fährt mit einem fertig konfigurierten System besser.
Wenn Sie zwischen Kaufen und Bauen schwanken, hilft unser Vergleich der KI-Server-Konfigurationen zum Kaufen — dort stehen die gleichen Budgetstufen als schlüsselfertige Systeme gegenüber.
Häufig gestellte Fragen
Welche GPU brauche ich für ein 70B-Modell? Für Llama 70B oder Qwen2.5 72B in Q4-Quantisierung brauchen Sie rund 42 GB VRAM. Das bedeutet entweder eine einzelne 48-GB-Karte (RTX 6000 Ada, A6000, L40S) oder zwei 24-GB-Karten wie zwei RTX 4090 im Tensor-Parallel-Betrieb. Eine einzelne 24-GB-Karte schafft 70B nur mit Auslagerung in den System-RAM — und damit sehr langsam.
Was kostet eine LLM-Workstation zum Selbstbau? Der Einstieg für 7B-14B-Modelle liegt bei rund €1.800, eine Mittelklasse-Maschine bis 34B bei etwa €3.900, ein 70B-fähiger Build bei €10.000-12.000. Der Löwenanteil entfällt auf die GPU. Stromkosten kommen obendrauf: eine RTX 4090 unter Last etwa €2.000 pro Jahr bei acht Betriebsstunden täglich.
Reicht eine Consumer-GPU wie die RTX 4090 oder brauche ich eine Workstation-Karte? Für die meisten Mittelstands-Anwendungen reicht die RTX 4090 vollkommen. Workstation-Karten wie die RTX 6000 Ada lohnen sich, wenn Sie 70B auf einer einzigen GPU brauchen, ECC-Speicher für zertifizierte Umgebungen benötigen oder rund um die Uhr unter Volllast fahren. Der Aufpreis beträgt gut das Dreifache pro GB VRAM.
Wie viel System-RAM brauche ich zusätzlich zum VRAM? Mindestens so viel RAM wie VRAM, besser das Doppelte. Der System-RAM wird zum Laden der Modelle und als Auslagerungsspeicher genutzt, wenn der VRAM knapp wird. Für eine 24-GB-GPU sind 64 GB RAM sinnvoll, für 48 GB VRAM eher 128 GB.
Kann ich zwei GPUs auf einem normalen Desktop-Mainboard betreiben? Technisch ja, aber mit Leistungsverlust. Desktop-Boards teilen sich meist die PCIe-Lanes, sodass die zweite Karte nur mit x4 statt x16 angebunden ist. Für Multi-GPU-Inference mit vollem Durchsatz brauchen Sie eine Threadripper- oder Xeon-Plattform mit genügend PCIe-Lanes.
Fazit und nächster Schritt
Der Eigenbau lohnt sich, wenn Sie die GPU nach Ihrem tatsächlichen VRAM-Bedarf wählen statt nach dem Marketing-Datenblatt. Rechnen Sie zuerst aus, welche Modellgröße Sie wirklich brauchen — dann steht die Grafikkarte fest, und der Rest des Systems ergibt sich daraus. Wenn Sie prüfen wollen, ob sich der Server gegenüber Cloud-Abrechnung rechnet, starten Sie mit dem KI-ROI-Rechner und tragen Sie Ihre erwartete Nutzung ein.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
KI-Server kaufen 2026: 3 Konfigurationen ab €3.500
KI-Server kaufen für RAG, Chatbots, Code-Assistenten: 3 GPU-Konfigurationen ab €3.500 mit Benchmarks (RTX 4090, A4000, L4) und Einkaufsliste.
GPU für LLM-Inferenz: RTX 4090 vs A6000 vs L40S
GPU für LLM-Inferenz wählen: RTX 4090, RTX A6000, RTX 6000 Ada und L40S im Vergleich — VRAM, Bandbreite, TDP, Preis und welche Modellgröße passt.
Qdrant-Cluster aufsetzen: skalierbare Vektorsuche
Qdrant-Cluster on-premise aufsetzen: hochverfügbare Vektorsuche für RAG und Bildklassifizierung. Architektur, Replikation und Betrieb Schritt für Schritt.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)