Air-Gapped LLM: Llama 3.3 ohne Internet betreiben

TL;DR

Air-Gapped KI bedeutet: Ein LLM läuft auf einem Server ohne jede Netzwerkverbindung zur Außenwelt. Für Produktionshallen, KRITIS-Betreiber und Unternehmen mit strengsten Geheimhaltungsanforderungen ist das die einzige akzeptable Lösung. Llama 3.3 (8B) lässt sich in 4 Stunden auf einem physisch isolierten Server installieren, bei Hardwarekosten ab 3.200 € und 0 € laufenden API-Kosten.

Wann Air-Gapped KI notwendig ist

Nicht jedes Unternehmen braucht eine KI ohne Internetverbindung. Aber für drei Szenarien ist Air-Gapped-Betrieb unverzichtbar:

KRITIS-Betreiber: Energieversorger, Wasserwerke und Krankenhäuser unterliegen dem IT-Sicherheitsgesetz 2.0. Netzwerke in der Leitwarte dürfen keine Verbindung zum Internet haben. Wenn dort ein KI-System Alarme klassifizieren oder Berichte generieren soll, muss es offline funktionieren.

Rüstung und Automotive: Ein Automobilzulieferer, der Bauteile für Militärfahrzeuge fertigt, unterliegt dem Geheimschutzhandbuch. Technische Dokumentation darf nicht über Netzwerke übertragen werden, die mit dem Internet verbunden sind. Trotzdem würde ein KI-Assistent für technische Dokumentation 15 Stunden pro Woche einsparen.

Produktion ohne WLAN: In Tiefgaragen-Logistikzentren, unterirdischen Lagerhallen oder abgeschirmten Fertigungshallen gibt es schlicht kein Internet. Ein Logistiker aus Nordrhein-Westfalen betreibt sein Hochregallager in einem Gebäude mit Faraday-Käfig-Wirkung. Cloud-KI funktioniert dort nicht.

Die Kosten für KI-Projekte sind bei Air-Gapped-Systemen besonders planbar: keine monatlichen API-Gebühren, keine variablen Cloud-Kosten.

Hardware für Air-Gapped LLM-Betrieb

Modell	VRAM	Hardware	Tokens/Sek.	Kosten
Llama 3.3 8B (Q4)	6 GB	RTX 4060	35	3.200 €
Mistral 7B (Q4)	5 GB	RTX 4060	40	3.200 €
Llama 3.3 70B (Q4)	42 GB	2x RTX 4090	15	8.400 €
Mixtral 8x7B (Q4)	28 GB	RTX 4090	22	4.800 €

Für die meisten Anwendungen im Mittelstand (Dokumenten-Assistenz, Zusammenfassungen, E-Mail-Entwürfe) reicht das 8B-Modell vollkommen aus. Das 70B-Modell ist nur für komplexe Analyseaufgaben oder Code-Generierung notwendig.

Installation ohne Internet: Schritt für Schritt

Der gesamte Prozess findet über USB-Datenträger statt. Sie benötigen einen Online-Rechner zum Herunterladen und den Air-Gapped-Server zum Installieren.

Auf dem Online-Rechner vorbereiten

# 1. Ollama herunterladen (standalone binary)
wget https://github.com/ollama/ollama/releases/download/v0.5.4/ollama-linux-amd64
chmod +x ollama-linux-amd64

# 2. Modell herunterladen
./ollama-linux-amd64 serve &
./ollama-linux-amd64 pull llama3.3:8b-instruct-q4_K_M

# 3. Modell exportieren
cp -r ~/.ollama/models /media/usb_stick/ollama_models/

# 4. NVIDIA-Treiber herunterladen (offline-Installer)
wget https://download.nvidia.com/XFree86/Linux-x86_64/550.120/NVIDIA-Linux-x86_64-550.120.run

# 5. Alles auf USB-Stick kopieren
cp ollama-linux-amd64 /media/usb_stick/
cp NVIDIA-Linux-x86_64-550.120.run /media/usb_stick/

Auf dem Air-Gapped-Server installieren

# 1. NVIDIA-Treiber installieren (offline)
chmod +x /media/usb_stick/NVIDIA-Linux-x86_64-550.120.run
sudo /media/usb_stick/NVIDIA-Linux-x86_64-550.120.run --silent

# 2. Ollama installieren
sudo cp /media/usb_stick/ollama-linux-amd64 /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

# 3. Modell-Dateien kopieren
sudo mkdir -p /var/lib/ollama
sudo cp -r /media/usb_stick/ollama_models/* /var/lib/ollama/

# 4. Systemd-Service erstellen
sudo tee /etc/systemd/system/ollama.service << 'UNIT'
[Unit]
Description=Ollama LLM Server (Air-Gapped)
After=multi-user.target

[Service]
ExecStart=/usr/local/bin/ollama serve
Environment="OLLAMA_HOST=127.0.0.1:11434"
Environment="OLLAMA_MODELS=/var/lib/ollama/models"
Restart=always
User=ollama

[Install]
WantedBy=multi-user.target
UNIT

sudo systemctl enable --now ollama.service

Die gesamte Installation dauert 3–4 Stunden, davon 2 Stunden für den Modell-Download auf dem Online-Rechner.

Netzwerk-Konfiguration: Wirklich air-gapped

# network_config.yaml – Netzwerk-Härtung
firewall:
  incoming:
    - allow: "tcp/11434 from 192.168.10.0/24"  # Nur internes LAN
    - deny: all
  outgoing:
    - deny: all  # Keine ausgehenden Verbindungen
dns:
  servers: []  # Kein DNS konfiguriert
routes:
  default_gateway: "none"  # Kein Default-Gateway
interfaces:
  eth0:
    ip: "192.168.10.50/24"
    gateway: "none"
  eth1:
    status: "disabled"  # Zweite NIC deaktiviert

Prüfen Sie nach der Installation mit ip route und ss -tlnp, dass keine ausgehenden Verbindungen existieren. Für KRITIS-Anforderungen empfiehlt sich zusätzlich eine physische Netzwerktrennung (kein Kabel zum Internet-Router).

Anwendungsfall: KI-Assistent in der Leitwarte

Ein Stadtwerk mit 45.000 Versorgungspunkten betreibt eine Leitwarte im isolierten SCADA-Netzwerk. Das Air-Gapped-LLM unterstützt die Leitstellenmitarbeiter bei:

Störungsberichte: Freiformtext-Eingabe wird in strukturierte Störmeldungen konvertiert
Handbuch-Suche: Fragen zu Schaltanweisungen werden aus 2.400 Seiten Betriebshandbuch beantwortet
Schichtprotokoll: Stichworte werden in vollständige Schichtberichte formuliert

Ergebnis nach 3 Monaten Pilotbetrieb:

Metrik	Vorher	Mit Air-Gapped KI	Verbesserung
Zeit pro Störmeldung	18 Min.	4 Min.	-78 %
Handbuch-Recherche	25 Min.	2 Min.	-92 %
Schichtprotokoll	35 Min.	8 Min.	-77 %
Gesamte Zeitersparnis/Woche	–	12 Std.	–
Jährliche Einsparung	–	31.200 €	–

Der KI-Komplett-Leitfaden beschreibt weitere Anwendungsfälle für KI in regulierten Umgebungen.

Modell-Updates im Air-Gapped-Betrieb

Updates erfolgen ausschließlich per USB-Stick nach dem Vier-Augen-Prinzip:

Neues Modell auf dem Online-Rechner herunterladen und testen
Modell-Dateien auf verschlüsselten USB-Stick kopieren (LUKS oder BitLocker)
USB-Stick durch IT-Sicherheitsbeauftragten freigeben lassen
Modell auf Air-Gapped-Server installieren
Altes Modell als Fallback behalten (Rollback innerhalb von 5 Minuten)

Die KI-Implementierungsanleitung beschreibt Change-Management-Prozesse für solche Updates.

Kosten und ROI

Position	Betrag
Server (RTX 4060, 32 GB RAM)	3.200 €
USB-Stick verschlüsselt (2 Stück)	80 €
Installation (8 Std. intern)	680 €
Investition gesamt	3.960 €
API-Kosten eingespart (vs. Cloud)	4.800 €/Jahr
Produktivitätsgewinn	31.200 €/Jahr
ROI Jahr 1	810 %

Die ROI-Berechnungsvorlage ermöglicht eine individuelle Kalkulation für Ihr Szenario.

Modellauswahl für Air-Gapped-Betrieb

Nicht jedes Modell eignet sich für den Offline-Einsatz. Drei Kriterien für die Auswahl:

Lizenz: Das Modell muss eine Lizenz haben, die lokale Installation ohne Internet-Aktivierung erlaubt. Llama 3.3 (Meta Community License), Mistral (Apache 2.0) und Qwen 2.5 (Apache 2.0) erfüllen diese Anforderung. Proprietäre Modelle mit Online-Lizenzprüfung scheiden aus.

Sprachqualität Deutsch: Nicht alle Open-Source-Modelle liefern gute deutsche Antworten. Llama 3.3, Mistral und Qwen 2.5 haben die beste deutsche Sprachqualität unter den frei verfügbaren Modellen. Phi-3 und Gemma 2 sind auf Deutsch deutlich schwächer.

Quantisierungsverlust: Kleine Modelle (7–8B Parameter) verlieren bei 4-Bit-Quantisierung nur 3–5 % Qualität. Bei 70B-Modellen ist der Verlust geringer (1–2 %), aber die Hardware-Anforderungen steigen erheblich. Für die meisten Mittelstands-Anwendungen liefert ein 8B-Modell in Q4-Quantisierung das beste Verhältnis aus Qualität und Hardwarekosten.

Sicherheitsaspekte

Air-Gapped-Systeme eliminieren Netzwerk-Angriffsvektoren, schaffen aber neue Risiken:

USB-Stick als Einfallstor: Verwenden Sie nur geprüfte, verschlüsselte Sticks. Deaktivieren Sie Auto-Run.
Physischer Zugang: Der Server muss in einem verschlossenen Raum stehen. Zugangsprotokoll führen.
Modell-Integrität: Prüfen Sie SHA256-Checksummen nach jeder Installation gegen die Original-Quelle.
Logging: Alle Anfragen an das LLM sollten lokal geloggt werden (für Audit-Zwecke).

FAQ

Kann ich ein Air-Gapped-System auch für mehrere Benutzer einsetzen? Ja, Ollama unterstützt parallele Anfragen. Über das interne LAN (ohne Internet-Zugang) können 10–15 Benutzer gleichzeitig auf das 8B-Modell zugreifen. Bei mehr Benutzern empfiehlt sich das 70B-Modell auf stärkerer Hardware.

Wie aktualisiere ich das Modell, wenn es keine Internetverbindung gibt? Per USB-Stick. Laden Sie das neue Modell auf einem Internet-Rechner herunter, kopieren Sie es auf einen verschlüsselten USB-Stick und installieren Sie es auf dem Air-Gapped-Server. Der Vorgang dauert 30–60 Minuten.

Funktioniert auch RAG (Retrieval Augmented Generation) air-gapped? Ja, die Vektordatenbank (z. B. Qdrant oder ChromaDB) läuft ebenfalls lokal. Dokumente werden einmalig per USB-Stick importiert und auf dem Server indiziert. Neue Dokumente können jederzeit über USB nachgeladen werden.

Welche Linux-Distribution empfehlen Sie? Ubuntu 22.04 LTS Server (Minimal-Installation). Alternativ Rocky Linux 9 für Unternehmen, die RHEL-Kompatibilität benötigen. Beide Distributionen unterstützen Offline-Installation von .deb/.rpm-Paketen.

Ist ein Air-Gapped-System BSI-konform? Ein Air-Gapped-System erfüllt die BSI-Anforderungen an Netzwerktrennung (BSI IT-Grundschutz NET.1.1). Für KRITIS-Betreiber ist die physische Trennung vom Internet eine Grundvoraussetzung. Das LLM selbst muss zusätzlich im Rahmen des AI Acts dokumentiert werden.