- Published on
KI-Server kaufen: GPU-Guide für unter €10.000
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ein leistungsfähiger KI-Server für den Mittelstand kostet zwischen €3.500 und €9.800. Für die meisten Anwendungen (RAG-Chatbots, Dokumentenanalyse, Code-Assistenten) reicht eine NVIDIA RTX 4090 mit 24 GB VRAM. Dieser Guide zeigt drei Konfigurationen mit konkreten Einkaufslisten und erklärt, welche GPU für welchen Einsatzzweck passt.
Warum ein eigener KI-Server unter €10.000 reicht
Die gängige Annahme, dass KI-Hardware Zehntausende Euro kostet, stammt aus der Welt der Rechenzentren und Trainingsclusters. Für den produktiven Einsatz vortrainierter Modelle im Mittelstand – also Inferenz, nicht Training – reicht deutlich günstigere Hardware.
Ein KI-Server für €5.000-8.000 kann:
- Ein 7B-Parameter-Modell mit 30+ Tokens/Sekunde betreiben
- 10-15 gleichzeitige Nutzer bedienen
- RAG über 100.000 Dokumente in Echtzeit durchführen
- 24/7 zuverlässig laufen
Das entspricht der Leistung, für die Cloud-Anbieter €2.000-4.000 pro Monat berechnen. Der Server amortisiert sich also in 2-4 Monaten.
GPU-Vergleich für KI im Mittelstand
Die GPU ist die wichtigste und teuerste Komponente. Hier ein Vergleich der drei relevantesten Optionen unter €10.000:
| Eigenschaft | RTX 4090 | RTX A4000 | NVIDIA L4 |
|---|---|---|---|
| VRAM | 24 GB GDDR6X | 16 GB GDDR6 | 24 GB GDDR6 |
| Preis (Stand Q1 2026) | €1.900 | €1.100 | €2.800 |
| Leistung (llama.cpp, 7B) | 38 tok/s | 22 tok/s | 32 tok/s |
| Leistung (llama.cpp, 33B) | 12 tok/s | Zu wenig VRAM | 10 tok/s |
| Stromverbrauch | 450W | 140W | 72W |
| Formfaktor | 3-Slot, Desktop | 1-Slot, Workstation | 1-Slot, Server |
| ECC-Speicher | Nein | Nein | Ja |
| Garantie | 3 Jahre | 5 Jahre | 5 Jahre |
| Empfehlung | Beste Leistung/€ | Budget-Option | 24/7-Dauerbetrieb |
Klare Empfehlung für den Mittelstand: Die RTX 4090 bietet das beste Preis-Leistungs-Verhältnis. Für 24/7-Betrieb in Serverräumen ist die L4 aufgrund des geringen Stromverbrauchs (72W vs. 450W) langfristig günstiger.
Drei Konfigurationen mit Einkaufsliste
Konfiguration 1: Einstieg (€3.500)
ki_server_einstieg:
einsatz: rag_chatbot_bis_5_nutzer
modell: mistral_7b_oder_llama3_8b
komponenten:
gpu: nvidia_rtx_4060_ti_16gb
preis_gpu: 450_euro
mainboard: asus_prime_b760m_a
preis_mainboard: 130_euro
cpu: intel_core_i5_14400f
preis_cpu: 195_euro
ram: 32_gb_ddr5_5600
preis_ram: 95_euro
ssd: 1_tb_samsung_990_pro_nvme
preis_ssd: 110_euro
netzteil: be_quiet_pure_power_12_650w
preis_netzteil: 85_euro
gehaeuse: fractal_design_pop_air
preis_gehaeuse: 75_euro
gesamtpreis: ca_3500_euro_inkl_montage
leistung:
tokens_pro_sekunde: 25_bei_7b
gleichzeitige_nutzer: 5
vram_auslastung: 85_prozent
Konfiguration 2: Standard (€5.800)
Für die meisten Mittelstandsanwendungen die richtige Wahl:
- GPU: NVIDIA RTX 4090 24 GB (€1.900)
- CPU: AMD Ryzen 9 7950X (€420)
- Mainboard: ASUS ProArt X670E Creator (€380)
- RAM: 64 GB DDR5-5600 (€180)
- SSD: 2 TB Samsung 990 Pro NVMe (€185)
- Netzteil: Corsair RM1000x 1000W (€175)
- Gehäuse: Fractal Design Meshify 2 (€145)
- Montage und Ubuntu-Setup: €400
- Gesamt: €5.785
Leistung: 38 Tokens/s bei 7B-Modellen, 12 Tokens/s bei 33B-Modellen. Bis zu 15 gleichzeitige Nutzer.
Konfiguration 3: Performance (€9.500)
Für anspruchsvolle Szenarien mit großen Modellen und vielen Nutzern:
- GPUs: 2x NVIDIA RTX 4090 24 GB (€3.800)
- CPU: AMD Threadripper 7960X (€1.400)
- Mainboard: ASUS Pro WS TRX50-SAGE (€950)
- RAM: 128 GB DDR5-5600 ECC (€520)
- SSD: 2x 2 TB Samsung 990 Pro NVMe RAID 1 (€370)
- Netzteil: Corsair HX1500i 1500W (€310)
- Gehäuse: Fractal Design Define 7 XL (€220)
- Montage und Setup: €600
- Gesamt: €9.470 (knapp unter €10.000)
Leistung: 35 Tokens/s bei 33B-Modellen, 50+ Tokens/s bei 7B-Modellen. Bis zu 30 gleichzeitige Nutzer.
Software-Stack: In 30 Minuten einsatzbereit
Die Hardware ist nur die halbe Miete. Der Software-Stack ist komplett Open Source:
Betriebssystem: Ubuntu 22.04 LTS Server – kostenlos, 5 Jahre Support.
KI-Runtime: Ollama oder vLLM. Ollama für einfachen Betrieb, vLLM für maximale Performance bei vielen gleichzeitigen Nutzern.
Frontend: Open WebUI – eine ChatGPT-ähnliche Oberfläche, die sich mit dem lokalen LLM verbindet. Nutzerverwaltung und Chat-Historie inklusive.
RAG-Framework: LangChain oder Haystack für Dokumentensuche. Qdrant als Vektordatenbank.
Die gesamte Software ist kostenlos. Keine Lizenzen, keine Abos, keine versteckten Kosten.
Wo kaufen? Lieferanten in Deutschland
Fertigsysteme (KI-ready):
- Thomas Krenn (Freyung): Konfigurierbare Server, 3 Jahre Vor-Ort-Service
- Tuxedo Computers (Augsburg): Linux-optimierte Systeme
- BOXX Technologies (über Fachhändler): Workstations mit Multi-GPU
Einzelkomponenten:
- Mindfactory, Alternate, Caseking: Consumer-GPUs (RTX 4090)
- NVIDIA-Partnerhändler: Professionelle GPUs (A4000, L4)
Tipp: Bei Thomas Krenn können Sie den Server fertig konfiguriert und mit Ubuntu vorinstalliert bestellen. Das spart 2-3 Stunden Montage und Ersteinrichtung.
Die Kostenplanung für KI-Projekte sollte neben der Hardware auch Strom und Kühlung berücksichtigen.
Stromkosten und Kühlung
| Konfiguration | Leistungsaufnahme | Stromkosten/Jahr |
|---|---|---|
| Einstieg (RTX 4060 Ti) | 180W Durchschnitt | €470 |
| Standard (RTX 4090) | 300W Durchschnitt | €785 |
| Performance (2x RTX 4090) | 550W Durchschnitt | €1.440 |
Berechnung: 24/7-Betrieb, €0,30/kWh. Im Serverraum mit vorhandener Klimatisierung entstehen keine zusätzlichen Kühlkosten. Unter dem Schreibtisch empfiehlt sich ein gut belüftetes Gehäuse.
Praxisbeispiel: Maschinenbauer aus Baden-Württemberg
Ein Maschinenbauer mit 150 Mitarbeitern und 12 Entwicklern baute einen KI-Server für €5.800 auf.
Einsatzzwecke:
- Code-Assistent (DeepSeek Coder, 5 Entwickler)
- Technische Dokumentation durchsuchen (RAG, alle Mitarbeiter)
- Angebotsunterstützung (Vertrieb, 4 Nutzer)
Ergebnis nach 4 Monaten:
- Entwicklerproduktivität +18%
- Dokumentensuche 5x schneller
- Angebotserstellung 25% schneller
- Cloud-KI-Kosten eingespart: €1.200/Monat
Der KI-Leitfaden für Unternehmen half bei der strategischen Planung.
Für die ROI-Berechnung des KI-Servers lag der Break-even bei 5 Monaten gegenüber Cloud-Alternativen.
Typische Fehler beim KI-Server-Kauf
Zu wenig VRAM: 8 GB reichen nur für 3B-Modelle – zu klein für produktiven Einsatz. Mindestens 16 GB, besser 24 GB.
Zu wenig RAM: Das System braucht RAM für die Vektordatenbank, das Betriebssystem und Puffer. 32 GB minimum, 64 GB empfohlen.
Keine USV: Ein KI-Server im Dauerbetrieb braucht eine unterbrechungsfreie Stromversorgung. €200-400 für eine APC Back-UPS.
Kein Backup-Konzept: Modelle sind nachladbar, aber Konfigurationen und Vektordatenbanken nicht. Tägliches Backup auf NAS einplanen.
Die KI-Implementierung gelingt mit der richtigen Hardware-Grundlage deutlich reibungsloser.
FAQ
Welche GPU brauche ich für einen KI-Server im Mittelstand?
Für die meisten Anwendungen (Chatbot, RAG, Code-Assistent) reicht eine NVIDIA RTX 4090 mit 24 GB VRAM. Für Teams mit 20+ Nutzern oder große Modelle (33B+) empfehlen sich zwei RTX 4090 oder eine professionelle A6000.
Kann ich einen gebrauchten Server für KI nutzen?
Bedingt. Gebrauchte Server haben oft keine PCIe 4.0 Slots und veraltete Netzteile ohne ausreichend Leistung für moderne GPUs. Eine gebrauchte RTX 3090 (24 GB, ca. €800) ist aber eine gute Budget-Option.
Wie laut ist ein KI-Server mit RTX 4090?
Im Desktop-Gehäuse unter Last 42-48 dB – vergleichbar mit einem Gaming-PC. Für Büroumgebungen zu laut. Empfehlung: Server im Serverraum oder Nebenraum aufstellen, Zugriff per Netzwerk.
Brauche ich Linux oder funktioniert auch Windows?
Linux (Ubuntu) wird empfohlen: bessere Performance, geringerer Overhead, einfachere Docker-Integration. Windows funktioniert mit WSL2, ist aber 10-15% langsamer und komplizierter zu warten.
Wie skaliere ich den Server bei wachsendem Bedarf?
Optionen: Zweite GPU nachrüsten (bei passendem Mainboard/Netzteil), auf größeres Modell wechseln, oder zweiten Server mit Load-Balancing ergänzen. Die Performance-Konfiguration mit 2x RTX 4090 lässt sich auf einem zweiten Server spiegeln.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
ChatGPT-Alternative lokal: 5 Tools ohne Abo
5 kostenlose ChatGPT-Alternativen lokal ohne Abo: Ollama, LM Studio, GPT4All, Jan und LocalAI im Benchmark-Vergleich für den Mittelstand.
Whisper lokal: Meetings transkribieren auf Deutsch
OpenAI Whisper lokal installieren und deutsche Meetings transkribieren. DSGVO-konform, ohne Cloud, mit 95 % Genauigkeit ab Tag 1.
Ollama mit GPU: CUDA-Setup auf Ubuntu Server
Ollama mit NVIDIA GPU und CUDA auf Ubuntu einrichten: 8x schneller als CPU. Anleitung für CUDA-Treiber, VRAM-Optimierung und Produktiv-Betrieb.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)