Published on

GPU für LLM-Inferenz: RTX 4090 vs A6000 vs L40S

Authors

Welche GPU für LLM-Inferenz: RTX 4090, A6000 oder L40S?

TL;DR

Für lokale LLM-Inferenz entscheidet fast immer der VRAM, nicht die Rechenleistung. Eine RTX 4090 (24 GB, ab ~1.800 €) reicht für Modelle bis 14B in 4-Bit. Ab 32B–70B brauchen Sie 48 GB: RTX A6000 oder RTX 6000 Ada als Workstation-Karte, L40S für den 24/7-Serverbetrieb.


Ein Maschinenbauer aus Baden-Württemberg fragte uns letzte Woche, ob er "einfach zwei RTX 4090 in den Server" packen könne, um ein 70B-Modell für die interne Doku-Suche zu betreiben. Kurze Antwort: Ja, technisch geht das — aber es ist die falsche Karte für einen Server, und die Rechnung sieht am Ende schlechter aus als gedacht. Genau um diese Kaufentscheidung geht es hier.

Der Fehler, den fast alle machen: Sie schauen auf TFLOPS und Benchmark-Balken. Bei LLM-Inferenz ist die Reihenfolge der Prioritäten aber eine andere. Erst kommt die Frage, ob das Modell überhaupt in den Speicher passt. Dann, wie schnell die Karte diesen Speicher lesen kann (Bandbreite). Und erst danach zählt die reine Rechenleistung — und die auch nur, wenn Sie viele Anfragen parallel bedienen.

Warum VRAM die erste Frage ist, nicht die letzte

Ein Large Language Model muss während der Inferenz komplett im GPU-Speicher liegen — die Gewichte plus der sogenannte KV-Cache für den Kontext. Passt es nicht rein, lagert das System auf den langsamen System-RAM oder die SSD aus, und die Token-Rate bricht auf ein Zehntel ein. Das ist kein Feintuning-Problem, das ist ein Ja/Nein-Problem.

Die grobe Faustregel für den Speicherbedarf der reinen Gewichte:

  • FP16 (volle Präzision): ca. 2 GB VRAM pro Milliarde Parameter
  • INT8 / 8-Bit-Quantisierung: ca. 1 GB pro Milliarde
  • INT4 / 4-Bit-Quantisierung: ca. 0,5–0,6 GB pro Milliarde

Dazu kommen 2–6 GB für KV-Cache, Aktivierungen und Overhead — abhängig von Kontextlänge und Batch-Größe. Ein 70B-Modell in 4-Bit braucht also rund 40 GB Gewichte plus Puffer, in der Praxis 44–48 GB. Auf einer 24-GB-Karte läuft das nicht, egal wie viele TFLOPS sie hat.

Das ist der Grund, warum die Wahl fast immer auf diese Speicher-Klassen hinausläuft: 24 GB (RTX 4090) oder 48 GB (A6000, RTX 6000 Ada, L40S). Alles dazwischen gibt es kaum sinnvoll.

Die vier Karten im direkten Vergleich

Vier GPUs bilden das relevante Feld für den Mittelstand. Alle vier basieren auf NVIDIAs Ada-Lovelace- oder Ampere-Architektur, alle vier laufen mit vLLM, Ollama, TGI und llama.cpp. Der Unterschied liegt in Speicher, Bauform und Preis.

GPUVRAMBandbreiteTDPFP16 (Tensor)Preis ca. 2026Bauform
RTX 409024 GB GDDR6X~1.008 GB/s450 W165 TFLOPSab ~1.800 €Consumer, aktiv
RTX A6000 (Ampere)48 GB GDDR6 ECC768 GB/s300 W~155 TFLOPS~4.650 $ (~4.500 €)Workstation, aktiv
RTX 6000 Ada48 GB GDDR6 ECC960 GB/s300 W~364 TFLOPS~6.800 $ (~6.900 €)Workstation, aktiv
L40S48 GB GDDR6 ECC864 GB/s350 W362 TFLOPS~7.000–8.500 €Datacenter, passiv

Preise sind Straßenpreise bzw. UVP, Stand Anfang 2026; NVIDIAs offizieller Einstiegspreis für die RTX 6000 Ada liegt bei 6.800 $. Alle vier Karten sind Single-GPU-Lösungen, die in einen normalen Tower oder ein Rack-Chassis passen.

RTX 4090 — die Preis-Leistungs-Referenz

Die RTX 4090 ist die Consumer-Karte, die alle als Einstieg nehmen wollen — und für viele Fälle zu Recht. 24 GB VRAM, rund 1 TB/s Bandbreite, 165 TFLOPS FP16 auf den Tensor-Cores. Für Inferenz von Modellen bis etwa 14B in 4-Bit oder 8B in FP16 ist sie schnell und günstig. Ein Llama-3.1-8B läuft hier mit interaktiven Token-Raten, gut genug für einen Chatbot mit einer Handvoll gleichzeitiger Nutzer.

Der Haken ist nicht die Leistung, sondern der Betrieb. Die 4090 zieht 450 W, hat einen aktiven Lüfter für den Desktop und keine ECC-Fehlerkorrektur im Speicher. Und rechtlich heikel: NVIDIAs GeForce-Treiber-EULA untersagt den Einsatz im Rechenzentrum ausdrücklich ("No Datacenter Deployment"). Für einen Server unterm Schreibtisch oder in einem kleinen Serverraum ist das in der Praxis kaum relevant. Für ein professionelles RZ mit 24/7-SLA ist es ein echtes Compliance-Thema — dann brauchen Sie eine Datacenter-Karte.

Unsere Empfehlung: Für Proof-of-Concept, Einzelplatz und kleine Teams ist die 4090 die vernünftigste Wahl. Zwei davon für ein 70B-Modell zu koppeln funktioniert technisch, ist aber wegen fehlendem NVLink (bei der 4090 gestrichen) langsamer und fummeliger als eine einzelne 48-GB-Karte.

RTX A6000 vs RTX 6000 Ada — die Namensfalle

Hier stolpern die meisten. Es gibt zwei Karten mit fast identischem Namen, aber zwei Generationen Abstand:

  • RTX A6000 — die ältere Ampere-Generation. 48 GB, 768 GB/s Bandbreite, 300 W, 10.752 CUDA-Cores. Günstiger (~4.650 $).
  • RTX 6000 Ada — die neue Ada-Lovelace-Generation. 48 GB, 960 GB/s, 300 W, 18.176 CUDA-Cores, FP8-Support. Teurer (~6.800 $).

Beide haben 48 GB und passen damit dieselbe Modellklasse: 30B in FP16 oder 70B in 4-Bit. Der Unterschied liegt in der Geschwindigkeit. Die RTX 6000 Ada ist in GPU-lastigen Workloads rund 45 % schneller als die A6000 und beherrscht FP8, was bei modernen Inferenz-Engines die Token-Rate deutlich hebt. Für reine Inferenz ist die höhere Bandbreite der Ada (960 vs. 768 GB/s) direkt spürbar, weil Inferenz bandbreitengebunden ist.

Wann trotzdem die A6000? Wenn Sie das 48-GB-VRAM brauchen, aber das Modell klein bleibt und die Latenz unkritisch ist — etwa Batch-Verarbeitung über Nacht. Dann sparen Sie gut 2.000 € pro Karte. Für interaktive Anwendungen mit spürbarer Antwortzeit raten wir zur Ada.

L40S — die Karte, die eigentlich in den Server gehört

Die L40S ist technisch die Server-Schwester der RTX 4090 und der RTX 6000 Ada: gleiche Ada-Architektur, 48 GB GDDR6 mit ECC, 864 GB/s Bandbreite, 362 TFLOPS FP16 und volle FP8-Unterstützung über die Transformer Engine. Der entscheidende Unterschied ist die Bauform. Die L40S ist passiv gekühlt — sie hat keinen eigenen Lüfter, sondern wird vom Luftstrom des Server-Chassis durchströmt. Sie ist auf 24/7-Dauerbetrieb ausgelegt, NEBS-Level-3-zertifiziert und darf ohne EULA-Problem im Rechenzentrum laufen.

Der Preis dafür: Sie kostet mehr als die RTX 6000 Ada und lässt sich nicht einfach in einen Desktop stecken — ohne den gerichteten Luftstrom eines Rack-Servers überhitzt sie. Wenn Sie einen echten Rack-Server mit Redundanz, ECC und Wartungsvertrag betreiben, ist die L40S die richtige Wahl. Für alles darunter ist sie überdimensioniert.

Welche Modellgröße läuft auf welcher Karte?

Die praktisch wichtigste Tabelle. Sie zeigt, was realistisch mit brauchbarer Antwortzeit läuft — nicht das theoretische Maximum, bei dem der KV-Cache schon knapp wird.

Karte7–8B FP1614B 4-Bit32B 4-Bit70B 4-Bit
RTX 4090 (24 GB)Ja, schnellJaKnapp / neinNein
A6000 (48 GB)JaJaJaJa, ausgelastet
RTX 6000 Ada (48 GB)JaJaJaJa
L40S (48 GB)JaJaJaJa

Ein 70B-Modell in 4-Bit belegt rund 40 GB Gewichte. Auf einer 48-GB-Karte bleiben etwa 6–8 GB für KV-Cache — genug für moderate Kontextlängen und wenige parallele Nutzer, aber nicht für lange Dokumente bei hoher Parallelität. Wollen Sie 70B mit großem Kontext und vielen gleichzeitigen Anfragen fahren, brauchen Sie zwei 48-GB-Karten oder gleich eine H100/H200-Klasse — das ist dann aber eine andere Budget-Liga.

Für die meisten Mittelstands-Anwendungen — interne Wissenssuche, Dokumenten-Klassifikation, ein RAG-Chatbot — reicht ein gut quantisiertes 14B- bis 32B-Modell. Und das läuft auf 48 GB komfortabel oder auf 24 GB gerade so.

Consumer vs. Datacenter: die versteckten Kosten

Die Preisdifferenz zwischen 4090 (1.800 €) und L40S (~8.000 €) sieht dramatisch aus. Aber vergleichen Sie nicht nur den Sticker-Preis. Drei Faktoren verschieben die Rechnung:

ECC-Speicher. Datacenter-Karten korrigieren Bit-Fehler im Speicher automatisch. Bei einem Chatbot, der mal ein falsches Token produziert, egal. Bei einer 24/7-Pipeline, die Verträge klassifiziert, ist ein stiller Speicherfehler ein Datenqualitätsproblem, das Sie nie bemerken.

Kühlung und Dichte. Eine 4090 mit 450 W und aktivem Lüfter passt schwer in ein dichtes Rack. Die passiv gekühlten Server-Karten sind genau dafür gebaut. Wer mehrere GPUs auf engem Raum betreibt, kommt an Datacenter-Karten nicht vorbei.

Support und Lizenz. NVIDIAs Enterprise-Support, Treiber-Zertifizierung und die saubere EULA-Situation kosten Geld, sind aber bei einem produktiven System mit SLA ihren Preis wert.

Unsere klare Position: Wer eine Karte für ein Team oder einen PoC unter dem Schreibtisch braucht, kauft die 4090 und ignoriert das Marketing der teuren Karten. Wer ein produktives System mit SLA im Rechenzentrum baut, kauft L40S oder RTX 6000 Ada — die eingesparten 5.000 € holt der erste unerklärliche Ausfall wieder auf. Die A6000 ist der Kompromiss dazwischen, wenn 48 GB nötig sind, aber jeder Euro zählt.

Wenn Sie die Gesamtkosten für einen kompletten Server durchrechnen wollen — inklusive CPU, RAM, Netzteil und Kühlung — hilft unser KI-Server-Hardware-Guide, der die Karten in konkrete Server-Konfigurationen einordnet. Für die Software-Seite zeigt die Ollama-Installationsanleitung für Ubuntu, wie Sie die GPU in Betrieb nehmen. Und wer mehrere Karten skalieren will, findet im Leitfaden zum GPU-Cluster mit Kubernetes die Orchestrierung.

Ein konkretes Kaufbeispiel

Ein Vorschlag, wie eine Entscheidung praktisch aussieht. Nehmen wir an, Sie wollen ein 32B-Modell (etwa Qwen2.5-32B in 4-Bit) für eine interne Dokumenten-Suche mit rund 15 gleichzeitigen Nutzern betreiben.

# VRAM-Bedarf prüfen: 32B in 4-Bit
# Gewichte: 32 * 0,55 GB  = ~17,6 GB
# KV-Cache (8k Kontext, batch 15): ~10-14 GB
# Overhead: ~2 GB
# ----------------------------------------
# Summe: ~30-34 GB → passt NICHT auf 24 GB, passt gut auf 48 GB

# Inferenz-Start mit vLLM auf einer 48-GB-Karte
vllm serve Qwen/Qwen2.5-32B-Instruct-AWQ \
  --quantization awq \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90

Die 24-GB-4090 fällt hier raus — das Modell passt nicht mit Puffer für 15 Nutzer. Bleibt die 48-GB-Klasse. Läuft der Server unterm Schreibtisch im Büro: A6000, wenn das Budget knapp ist, sonst RTX 6000 Ada für die bessere Latenz. Läuft er im Rechenzentrum mit Wartungsvertrag: L40S.

Häufig gestellte Fragen

Reicht eine RTX 4090 für LLM-Inferenz im Unternehmen?

Für Modelle bis 14B in 4-Bit oder 8B in FP16 und kleine Teams: ja, sie ist die günstigste sinnvolle Karte mit rund 1 TB/s Bandbreite. Für 32B- oder 70B-Modelle reichen die 24 GB VRAM nicht. Für den Betrieb in einem professionellen Rechenzentrum ist sie durch die GeForce-EULA nicht lizenziert.

Was kostet eine 48-GB-GPU für LLM-Inferenz 2026?

Die RTX A6000 (Ampere) liegt bei rund 4.650 ,dieneuereRTX6000Adabeirund6.800, die neuere RTX 6000 Ada bei rund 6.800 UVP. Die Datacenter-Karte L40S kostet je nach Anbieter etwa 7.000–8.500 €. Alle drei bieten 48 GB und decken damit dieselbe Modellklasse ab.

Was ist der Unterschied zwischen RTX A6000 und RTX 6000 Ada?

Die A6000 basiert auf Ampere (768 GB/s, 10.752 CUDA-Cores), die RTX 6000 Ada auf Ada Lovelace (960 GB/s, 18.176 Cores, FP8-Support). Beide haben 48 GB und 300 W TDP. Die Ada ist in GPU-Workloads rund 45 % schneller — der Aufpreis lohnt sich bei latenzkritischer, interaktiver Inferenz.

L40S oder RTX 4090 — was ist besser für Inferenz?

Die L40S hat 48 GB statt 24 GB, ECC-Speicher, passive Kühlung für 24/7-Betrieb und keine EULA-Beschränkung fürs Rechenzentrum. Die RTX 4090 ist deutlich günstiger und bei kleinen Modellen dank höherer Bandbreite (~1 TB/s vs. 864 GB/s) ähnlich schnell. Entscheidend ist der Einsatzort: Server-Rack → L40S, Arbeitsplatz oder PoC → RTX 4090.

Kann ich mit einer GPU ein 70B-Modell betreiben?

Ja, ein 70B-Modell in 4-Bit-Quantisierung belegt rund 40 GB und läuft auf einer einzelnen 48-GB-Karte (A6000, RTX 6000 Ada, L40S) — allerdings ausgelastet, mit begrenztem Spielraum für langen Kontext und viele parallele Nutzer. In FP16 brauchen 70B rund 140 GB und damit mehrere Karten.


Fazit und nächster Schritt

Die GPU-Wahl für LLM-Inferenz ist zuerst eine VRAM-Entscheidung: 24 GB für Modelle bis 14B, 48 GB für 32B–70B. Innerhalb der 48-GB-Klasse entscheidet der Einsatzort — Arbeitsplatz und Budget sprechen für A6000, Latenz für RTX 6000 Ada, Rechenzentrum für L40S.

Bevor Sie eine Karte bestellen: Rechnen Sie den kompletten Server durch. Der KI-Server-Hardware-Guide zeigt, welche CPU, wie viel RAM und welches Netzteil zur jeweiligen GPU passen — damit die 8.000-Euro-Karte nicht an einem zu kleinen Netzteil scheitert.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)