KI-Server unter €10.000: RTX 4090 vs. A4000 vs. L4

TL;DR

Ein leistungsfähiger KI-Server für den Mittelstand kostet zwischen €3.500 und €9.800. Für die meisten Anwendungen (RAG-Chatbots, Dokumentenanalyse, Code-Assistenten) reicht eine NVIDIA RTX 4090 mit 24 GB VRAM. Dieser Guide zeigt drei Konfigurationen mit konkreten Einkaufslisten und erklärt, welche GPU für welchen Einsatzzweck passt.

Warum ein eigener KI-Server unter €10.000 reicht

Die gängige Annahme, dass KI-Hardware Zehntausende Euro kostet, stammt aus der Welt der Rechenzentren und Trainingsclusters. Für den produktiven Einsatz vortrainierter Modelle im Mittelstand – also Inferenz, nicht Training – reicht deutlich günstigere Hardware.

Ein KI-Server für €5.000-8.000 kann:

Ein 7B-Parameter-Modell mit 30+ Tokens/Sekunde betreiben
10-15 gleichzeitige Nutzer bedienen
RAG über 100.000 Dokumente in Echtzeit durchführen
24/7 zuverlässig laufen

Das entspricht der Leistung, für die Cloud-Anbieter €2.000-4.000 pro Monat berechnen. Der Server amortisiert sich also in 2-4 Monaten.

GPU-Vergleich für KI im Mittelstand

Die GPU ist die wichtigste und teuerste Komponente. Hier ein Vergleich der drei relevantesten Optionen unter €10.000:

Eigenschaft	RTX 4090	RTX A4000	NVIDIA L4
VRAM	24 GB GDDR6X	16 GB GDDR6	24 GB GDDR6
Preis (Stand Q1 2026)	€1.900	€1.100	€2.800
Leistung (llama.cpp, 7B)	38 tok/s	22 tok/s	32 tok/s
Leistung (llama.cpp, 33B)	12 tok/s	Zu wenig VRAM	10 tok/s
Stromverbrauch	450W	140W	72W
Formfaktor	3-Slot, Desktop	1-Slot, Workstation	1-Slot, Server
ECC-Speicher	Nein	Nein	Ja
Garantie	3 Jahre	5 Jahre	5 Jahre
Empfehlung	Beste Leistung/€	Budget-Option	24/7-Dauerbetrieb

Klare Empfehlung für den Mittelstand: Die RTX 4090 bietet das beste Preis-Leistungs-Verhältnis. Für 24/7-Betrieb in Serverräumen ist die L4 aufgrund des geringen Stromverbrauchs (72W vs. 450W) langfristig günstiger.

Drei Konfigurationen mit Einkaufsliste

Konfiguration 1: Einstieg (€3.500)

ki_server_einstieg:
  einsatz: rag_chatbot_bis_5_nutzer
  modell: mistral_7b_oder_llama3_8b
  komponenten:
    gpu: nvidia_rtx_4060_ti_16gb
    preis_gpu: 450_euro
    mainboard: asus_prime_b760m_a
    preis_mainboard: 130_euro
    cpu: intel_core_i5_14400f
    preis_cpu: 195_euro
    ram: 32_gb_ddr5_5600
    preis_ram: 95_euro
    ssd: 1_tb_samsung_990_pro_nvme
    preis_ssd: 110_euro
    netzteil: be_quiet_pure_power_12_650w
    preis_netzteil: 85_euro
    gehaeuse: fractal_design_pop_air
    preis_gehaeuse: 75_euro
  gesamtpreis: ca_3500_euro_inkl_montage
  leistung:
    tokens_pro_sekunde: 25_bei_7b
    gleichzeitige_nutzer: 5
    vram_auslastung: 85_prozent

Konfiguration 2: Standard (€5.800)

Für die meisten Mittelstandsanwendungen die richtige Wahl:

GPU: NVIDIA RTX 4090 24 GB (€1.900)
CPU: AMD Ryzen 9 7950X (€420)
Mainboard: ASUS ProArt X670E Creator (€380)
RAM: 64 GB DDR5-5600 (€180)
SSD: 2 TB Samsung 990 Pro NVMe (€185)
Netzteil: Corsair RM1000x 1000W (€175)
Gehäuse: Fractal Design Meshify 2 (€145)
Montage und Ubuntu-Setup: €400
Gesamt: €5.785

Leistung: 38 Tokens/s bei 7B-Modellen, 12 Tokens/s bei 33B-Modellen. Bis zu 15 gleichzeitige Nutzer.

Konfiguration 3: Performance (€9.500)

Für anspruchsvolle Szenarien mit großen Modellen und vielen Nutzern:

GPUs: 2x NVIDIA RTX 4090 24 GB (€3.800)
CPU: AMD Threadripper 7960X (€1.400)
Mainboard: ASUS Pro WS TRX50-SAGE (€950)
RAM: 128 GB DDR5-5600 ECC (€520)
SSD: 2x 2 TB Samsung 990 Pro NVMe RAID 1 (€370)
Netzteil: Corsair HX1500i 1500W (€310)
Gehäuse: Fractal Design Define 7 XL (€220)
Montage und Setup: €600
Gesamt: €9.470 (knapp unter €10.000)

Leistung: 35 Tokens/s bei 33B-Modellen, 50+ Tokens/s bei 7B-Modellen. Bis zu 30 gleichzeitige Nutzer.

Software-Stack: In 30 Minuten einsatzbereit

Die Hardware ist nur die halbe Miete. Der Software-Stack ist komplett Open Source:

Betriebssystem: Ubuntu 22.04 LTS Server – kostenlos, 5 Jahre Support.

KI-Runtime: Ollama oder vLLM. Ollama für einfachen Betrieb, vLLM für maximale Performance bei vielen gleichzeitigen Nutzern.

Frontend: Open WebUI – eine ChatGPT-ähnliche Oberfläche, die sich mit dem lokalen LLM verbindet. Nutzerverwaltung und Chat-Historie inklusive.

RAG-Framework: LangChain oder Haystack für Dokumentensuche. Qdrant als Vektordatenbank.

Die gesamte Software ist kostenlos. Keine Lizenzen, keine Abos, keine versteckten Kosten.

Wo kaufen? Lieferanten in Deutschland

Fertigsysteme (KI-ready):

Thomas Krenn (Freyung): Konfigurierbare Server, 3 Jahre Vor-Ort-Service
Tuxedo Computers (Augsburg): Linux-optimierte Systeme
BOXX Technologies (über Fachhändler): Workstations mit Multi-GPU

Einzelkomponenten:

Mindfactory, Alternate, Caseking: Consumer-GPUs (RTX 4090)
NVIDIA-Partnerhändler: Professionelle GPUs (A4000, L4)

Tipp: Bei Thomas Krenn können Sie den Server fertig konfiguriert und mit Ubuntu vorinstalliert bestellen. Das spart 2-3 Stunden Montage und Ersteinrichtung.

Die Kostenplanung für KI-Projekte sollte neben der Hardware auch Strom und Kühlung berücksichtigen.

Stromkosten und Kühlung

Konfiguration	Leistungsaufnahme	Stromkosten/Jahr
Einstieg (RTX 4060 Ti)	180W Durchschnitt	€470
Standard (RTX 4090)	300W Durchschnitt	€785
Performance (2x RTX 4090)	550W Durchschnitt	€1.440

Berechnung: 24/7-Betrieb, €0,30/kWh. Im Serverraum mit vorhandener Klimatisierung entstehen keine zusätzlichen Kühlkosten. Unter dem Schreibtisch empfiehlt sich ein gut belüftetes Gehäuse.

Praxisbeispiel: Maschinenbauer aus Baden-Württemberg

Ein Maschinenbauer mit 150 Mitarbeitern und 12 Entwicklern baute einen KI-Server für €5.800 auf.

Einsatzzwecke:

Code-Assistent (DeepSeek Coder, 5 Entwickler)
Technische Dokumentation durchsuchen (RAG, alle Mitarbeiter)
Angebotsunterstützung (Vertrieb, 4 Nutzer)

Ergebnis nach 4 Monaten:

Entwicklerproduktivität +18%
Dokumentensuche 5x schneller
Angebotserstellung 25% schneller
Cloud-KI-Kosten eingespart: €1.200/Monat

Der KI-Leitfaden für Unternehmen half bei der strategischen Planung.

Für die ROI-Berechnung des KI-Servers lag der Break-even bei 5 Monaten gegenüber Cloud-Alternativen.

Typische Fehler beim KI-Server-Kauf

Zu wenig VRAM: 8 GB reichen nur für 3B-Modelle – zu klein für produktiven Einsatz. Mindestens 16 GB, besser 24 GB.

Zu wenig RAM: Das System braucht RAM für die Vektordatenbank, das Betriebssystem und Puffer. 32 GB minimum, 64 GB empfohlen.

Keine USV: Ein KI-Server im Dauerbetrieb braucht eine unterbrechungsfreie Stromversorgung. €200-400 für eine APC Back-UPS.

Kein Backup-Konzept: Modelle sind nachladbar, aber Konfigurationen und Vektordatenbanken nicht. Tägliches Backup auf NAS einplanen.

Die KI-Implementierung gelingt mit der richtigen Hardware-Grundlage deutlich reibungsloser.

FAQ

Welche GPU brauche ich für einen KI-Server im Mittelstand?

Für die meisten Anwendungen (Chatbot, RAG, Code-Assistent) reicht eine NVIDIA RTX 4090 mit 24 GB VRAM. Für Teams mit 20+ Nutzern oder große Modelle (33B+) empfehlen sich zwei RTX 4090 oder eine professionelle A6000.

Kann ich einen gebrauchten Server für KI nutzen?

Bedingt. Gebrauchte Server haben oft keine PCIe 4.0 Slots und veraltete Netzteile ohne ausreichend Leistung für moderne GPUs. Eine gebrauchte RTX 3090 (24 GB, ca. €800) ist aber eine gute Budget-Option.

Wie laut ist ein KI-Server mit RTX 4090?

Im Desktop-Gehäuse unter Last 42-48 dB – vergleichbar mit einem Gaming-PC. Für Büroumgebungen zu laut. Empfehlung: Server im Serverraum oder Nebenraum aufstellen, Zugriff per Netzwerk.

Brauche ich Linux oder funktioniert auch Windows?

Linux (Ubuntu) wird empfohlen: bessere Performance, geringerer Overhead, einfachere Docker-Integration. Windows funktioniert mit WSL2, ist aber 10-15% langsamer und komplizierter zu warten.

Wie skaliere ich den Server bei wachsendem Bedarf?

Optionen: Zweite GPU nachrüsten (bei passendem Mainboard/Netzteil), auf größeres Modell wechseln, oder zweiten Server mit Load-Balancing ergänzen. Die Performance-Konfiguration mit 2x RTX 4090 lässt sich auf einem zweiten Server spiegeln.