- Published on
Air-Gapped KI: LLM ohne Internet im Werk
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Air-Gapped KI bedeutet: Ein LLM läuft auf einem Server ohne jede Netzwerkverbindung zur Außenwelt. Für Produktionshallen, KRITIS-Betreiber und Unternehmen mit strengsten Geheimhaltungsanforderungen ist das die einzige akzeptable Lösung. Llama 3.3 (8B) lässt sich in 4 Stunden auf einem physisch isolierten Server installieren, bei Hardwarekosten ab 3.200 € und 0 € laufenden API-Kosten.
Wann Air-Gapped KI notwendig ist
Nicht jedes Unternehmen braucht eine KI ohne Internetverbindung. Aber für drei Szenarien ist Air-Gapped-Betrieb unverzichtbar:
KRITIS-Betreiber: Energieversorger, Wasserwerke und Krankenhäuser unterliegen dem IT-Sicherheitsgesetz 2.0. Netzwerke in der Leitwarte dürfen keine Verbindung zum Internet haben. Wenn dort ein KI-System Alarme klassifizieren oder Berichte generieren soll, muss es offline funktionieren.
Rüstung und Automotive: Ein Automobilzulieferer, der Bauteile für Militärfahrzeuge fertigt, unterliegt dem Geheimschutzhandbuch. Technische Dokumentation darf nicht über Netzwerke übertragen werden, die mit dem Internet verbunden sind. Trotzdem würde ein KI-Assistent für technische Dokumentation 15 Stunden pro Woche einsparen.
Produktion ohne WLAN: In Tiefgaragen-Logistikzentren, unterirdischen Lagerhallen oder abgeschirmten Fertigungshallen gibt es schlicht kein Internet. Ein Logistiker aus Nordrhein-Westfalen betreibt sein Hochregallager in einem Gebäude mit Faraday-Käfig-Wirkung. Cloud-KI funktioniert dort nicht.
Die Kosten für KI-Projekte sind bei Air-Gapped-Systemen besonders planbar: keine monatlichen API-Gebühren, keine variablen Cloud-Kosten.
Hardware für Air-Gapped LLM-Betrieb
| Modell | VRAM | Hardware | Tokens/Sek. | Kosten |
|---|---|---|---|---|
| Llama 3.3 8B (Q4) | 6 GB | RTX 4060 | 35 | 3.200 € |
| Mistral 7B (Q4) | 5 GB | RTX 4060 | 40 | 3.200 € |
| Llama 3.3 70B (Q4) | 42 GB | 2x RTX 4090 | 15 | 8.400 € |
| Mixtral 8x7B (Q4) | 28 GB | RTX 4090 | 22 | 4.800 € |
Für die meisten Anwendungen im Mittelstand (Dokumenten-Assistenz, Zusammenfassungen, E-Mail-Entwürfe) reicht das 8B-Modell vollkommen aus. Das 70B-Modell ist nur für komplexe Analyseaufgaben oder Code-Generierung notwendig.
Installation ohne Internet: Schritt für Schritt
Der gesamte Prozess findet über USB-Datenträger statt. Sie benötigen einen Online-Rechner zum Herunterladen und den Air-Gapped-Server zum Installieren.
Auf dem Online-Rechner vorbereiten
# 1. Ollama herunterladen (standalone binary)
wget https://github.com/ollama/ollama/releases/download/v0.5.4/ollama-linux-amd64
chmod +x ollama-linux-amd64
# 2. Modell herunterladen
./ollama-linux-amd64 serve &
./ollama-linux-amd64 pull llama3.3:8b-instruct-q4_K_M
# 3. Modell exportieren
cp -r ~/.ollama/models /media/usb_stick/ollama_models/
# 4. NVIDIA-Treiber herunterladen (offline-Installer)
wget https://download.nvidia.com/XFree86/Linux-x86_64/550.120/NVIDIA-Linux-x86_64-550.120.run
# 5. Alles auf USB-Stick kopieren
cp ollama-linux-amd64 /media/usb_stick/
cp NVIDIA-Linux-x86_64-550.120.run /media/usb_stick/
Auf dem Air-Gapped-Server installieren
# 1. NVIDIA-Treiber installieren (offline)
chmod +x /media/usb_stick/NVIDIA-Linux-x86_64-550.120.run
sudo /media/usb_stick/NVIDIA-Linux-x86_64-550.120.run --silent
# 2. Ollama installieren
sudo cp /media/usb_stick/ollama-linux-amd64 /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama
# 3. Modell-Dateien kopieren
sudo mkdir -p /var/lib/ollama
sudo cp -r /media/usb_stick/ollama_models/* /var/lib/ollama/
# 4. Systemd-Service erstellen
sudo tee /etc/systemd/system/ollama.service << 'UNIT'
[Unit]
Description=Ollama LLM Server (Air-Gapped)
After=multi-user.target
[Service]
ExecStart=/usr/local/bin/ollama serve
Environment="OLLAMA_HOST=127.0.0.1:11434"
Environment="OLLAMA_MODELS=/var/lib/ollama/models"
Restart=always
User=ollama
[Install]
WantedBy=multi-user.target
UNIT
sudo systemctl enable --now ollama.service
Die gesamte Installation dauert 3–4 Stunden, davon 2 Stunden für den Modell-Download auf dem Online-Rechner.
Netzwerk-Konfiguration: Wirklich air-gapped
# network_config.yaml – Netzwerk-Härtung
firewall:
incoming:
- allow: "tcp/11434 from 192.168.10.0/24" # Nur internes LAN
- deny: all
outgoing:
- deny: all # Keine ausgehenden Verbindungen
dns:
servers: [] # Kein DNS konfiguriert
routes:
default_gateway: "none" # Kein Default-Gateway
interfaces:
eth0:
ip: "192.168.10.50/24"
gateway: "none"
eth1:
status: "disabled" # Zweite NIC deaktiviert
Prüfen Sie nach der Installation mit ip route und ss -tlnp, dass keine ausgehenden Verbindungen existieren. Für KRITIS-Anforderungen empfiehlt sich zusätzlich eine physische Netzwerktrennung (kein Kabel zum Internet-Router).
Anwendungsfall: KI-Assistent in der Leitwarte
Ein Stadtwerk mit 45.000 Versorgungspunkten betreibt eine Leitwarte im isolierten SCADA-Netzwerk. Das Air-Gapped-LLM unterstützt die Leitstellenmitarbeiter bei:
- Störungsberichte: Freiformtext-Eingabe wird in strukturierte Störmeldungen konvertiert
- Handbuch-Suche: Fragen zu Schaltanweisungen werden aus 2.400 Seiten Betriebshandbuch beantwortet
- Schichtprotokoll: Stichworte werden in vollständige Schichtberichte formuliert
Ergebnis nach 3 Monaten Pilotbetrieb:
| Metrik | Vorher | Mit Air-Gapped KI | Verbesserung |
|---|---|---|---|
| Zeit pro Störmeldung | 18 Min. | 4 Min. | -78 % |
| Handbuch-Recherche | 25 Min. | 2 Min. | -92 % |
| Schichtprotokoll | 35 Min. | 8 Min. | -77 % |
| Gesamte Zeitersparnis/Woche | – | 12 Std. | – |
| Jährliche Einsparung | – | 31.200 € | – |
Der KI-Komplett-Leitfaden beschreibt weitere Anwendungsfälle für KI in regulierten Umgebungen.
Modell-Updates im Air-Gapped-Betrieb
Updates erfolgen ausschließlich per USB-Stick nach dem Vier-Augen-Prinzip:
- Neues Modell auf dem Online-Rechner herunterladen und testen
- Modell-Dateien auf verschlüsselten USB-Stick kopieren (LUKS oder BitLocker)
- USB-Stick durch IT-Sicherheitsbeauftragten freigeben lassen
- Modell auf Air-Gapped-Server installieren
- Altes Modell als Fallback behalten (Rollback innerhalb von 5 Minuten)
Die KI-Implementierungsanleitung beschreibt Change-Management-Prozesse für solche Updates.
Kosten und ROI
| Position | Betrag |
|---|---|
| Server (RTX 4060, 32 GB RAM) | 3.200 € |
| USB-Stick verschlüsselt (2 Stück) | 80 € |
| Installation (8 Std. intern) | 680 € |
| Investition gesamt | 3.960 € |
| API-Kosten eingespart (vs. Cloud) | 4.800 €/Jahr |
| Produktivitätsgewinn | 31.200 €/Jahr |
| ROI Jahr 1 | 810 % |
Die ROI-Berechnungsvorlage ermöglicht eine individuelle Kalkulation für Ihr Szenario.
Modellauswahl für Air-Gapped-Betrieb
Nicht jedes Modell eignet sich für den Offline-Einsatz. Drei Kriterien für die Auswahl:
Lizenz: Das Modell muss eine Lizenz haben, die lokale Installation ohne Internet-Aktivierung erlaubt. Llama 3.3 (Meta Community License), Mistral (Apache 2.0) und Qwen 2.5 (Apache 2.0) erfüllen diese Anforderung. Proprietäre Modelle mit Online-Lizenzprüfung scheiden aus.
Sprachqualität Deutsch: Nicht alle Open-Source-Modelle liefern gute deutsche Antworten. Llama 3.3, Mistral und Qwen 2.5 haben die beste deutsche Sprachqualität unter den frei verfügbaren Modellen. Phi-3 und Gemma 2 sind auf Deutsch deutlich schwächer.
Quantisierungsverlust: Kleine Modelle (7–8B Parameter) verlieren bei 4-Bit-Quantisierung nur 3–5 % Qualität. Bei 70B-Modellen ist der Verlust geringer (1–2 %), aber die Hardware-Anforderungen steigen erheblich. Für die meisten Mittelstands-Anwendungen liefert ein 8B-Modell in Q4-Quantisierung das beste Verhältnis aus Qualität und Hardwarekosten.
Sicherheitsaspekte
Air-Gapped-Systeme eliminieren Netzwerk-Angriffsvektoren, schaffen aber neue Risiken:
- USB-Stick als Einfallstor: Verwenden Sie nur geprüfte, verschlüsselte Sticks. Deaktivieren Sie Auto-Run.
- Physischer Zugang: Der Server muss in einem verschlossenen Raum stehen. Zugangsprotokoll führen.
- Modell-Integrität: Prüfen Sie SHA256-Checksummen nach jeder Installation gegen die Original-Quelle.
- Logging: Alle Anfragen an das LLM sollten lokal geloggt werden (für Audit-Zwecke).
FAQ
Kann ich ein Air-Gapped-System auch für mehrere Benutzer einsetzen? Ja, Ollama unterstützt parallele Anfragen. Über das interne LAN (ohne Internet-Zugang) können 10–15 Benutzer gleichzeitig auf das 8B-Modell zugreifen. Bei mehr Benutzern empfiehlt sich das 70B-Modell auf stärkerer Hardware.
Wie aktualisiere ich das Modell, wenn es keine Internetverbindung gibt? Per USB-Stick. Laden Sie das neue Modell auf einem Internet-Rechner herunter, kopieren Sie es auf einen verschlüsselten USB-Stick und installieren Sie es auf dem Air-Gapped-Server. Der Vorgang dauert 30–60 Minuten.
Funktioniert auch RAG (Retrieval Augmented Generation) air-gapped? Ja, die Vektordatenbank (z. B. Qdrant oder ChromaDB) läuft ebenfalls lokal. Dokumente werden einmalig per USB-Stick importiert und auf dem Server indiziert. Neue Dokumente können jederzeit über USB nachgeladen werden.
Welche Linux-Distribution empfehlen Sie? Ubuntu 22.04 LTS Server (Minimal-Installation). Alternativ Rocky Linux 9 für Unternehmen, die RHEL-Kompatibilität benötigen. Beide Distributionen unterstützen Offline-Installation von .deb/.rpm-Paketen.
Ist ein Air-Gapped-System BSI-konform? Ein Air-Gapped-System erfüllt die BSI-Anforderungen an Netzwerktrennung (BSI IT-Grundschutz NET.1.1). Für KRITIS-Betreiber ist die physische Trennung vom Internet eine Grundvoraussetzung. Das LLM selbst muss zusätzlich im Rahmen des AI Acts dokumentiert werden.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
On-Premise KI: 5 Self-Hosted LLM-Lösungen verglichen
5 Self-Hosted LLM-Lösungen verglichen: Ollama, vLLM, LocalAI, llama.cpp, TGI. Ab 2.400 €, bis 85 Tokens/Sek. Entscheidungshilfe für den Mittelstand.
LiteLLM Proxy: Mehrere LLMs zentral verwalten
LiteLLM Proxy bündelt OpenAI, Anthropic und lokale LLMs unter einer API. Setup-Anleitung, Kostenverteilung und Fallstricke für den Mittelstand.
ChatGPT-Alternative lokal: 5 Tools ohne Abo
5 kostenlose ChatGPT-Alternativen lokal ohne Abo: Ollama, LM Studio, GPT4All, Jan und LocalAI im Benchmark-Vergleich für den Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)