Ollama auf Synology NAS: Docker Setup in 30 Min

TL;DR

Ollama läuft auf Synology NAS-Modellen mit Intel Celeron oder AMD Ryzen CPU via Docker Container. Kleine Modelle (Phi-3, Gemma 2B) antworten in 3-8 Sekunden. Für 7B-Modelle braucht es mindestens 16 GB RAM. Die Installation dauert 30 Minuten -- ohne Linux-Kenntnisse über die Container-Manager-Oberfläche.

Warum KI auf dem NAS?

Ein Handwerksbetrieb in Bayern hat 14 Mitarbeitende und eine Synology DS923+ im Keller. Das NAS sichert Fotos, Aufmaße und Rechnungen. Der Geschäftsführer möchte ChatGPT-ähnliche Funktionen nutzen -- aber keine Firmendaten an OpenAI senden.

Dieses Szenario trifft auf tausende kleine Betriebe in Deutschland zu. Die Synology steht bereits da, läuft 24/7 und hat oft ungenutzte Rechenkapazität. Ollama als Docker-Container verwandelt sie in einen privaten KI-Server -- DSGVO-konform, ohne monatliche Kosten und ohne Cloud-Abhängigkeit.

Wer Ollama bereits auf Ubuntu kennt, findet die NAS-Variante deutlich einfacher. Der Ollama Modelfile Guide zeigt, wie individuelle Modelle konfiguriert werden.

Hardware-Check: Welche Synology kann Ollama?

Nicht jedes NAS-Modell eignet sich. Entscheidend sind CPU-Architektur und RAM.

Getestete Modelle

Synology Modell	CPU	RAM (ab Werk)	Max RAM	Ollama-tauglich?
DS224+	Intel Celeron J4125	2 GB	8 GB	Bedingt (nur 1-3B Modelle)
DS423+	Intel Celeron J4125	2 GB	8 GB	Bedingt
DS723+	AMD Ryzen R1600	2 GB	32 GB	Ja (mit RAM-Upgrade)
DS923+	AMD Ryzen R1600	4 GB	32 GB	Ja
DS1621+	AMD Ryzen V1500B	4 GB	32 GB	Ja
DS1823xs+	AMD Ryzen V1780B	8 GB	32 GB	Ja
RS1221+	AMD Ryzen V1500B	4 GB	32 GB	Ja

Minimum für brauchbare Ergebnisse: 8 GB RAM und eine x86_64-CPU. ARM-basierte Modelle (DS120j, DS220j) sind nicht kompatibel.

Empfehlung: DS923+ oder DS723+ mit RAM-Upgrade auf 16 GB oder 32 GB. Das RAM-Upgrade kostet 35-80 € (16 GB DDR4 ECC SO-DIMM) und ist in 5 Minuten eingebaut.

Installation Schritt für Schritt

Voraussetzung: Container Manager installieren

DSM öffnen (im Browser: http://synology-ip:5000)
Paketzentrum aufrufen
Container Manager suchen und installieren (ehemals Docker)
Nach Installation: Container Manager starten

Ollama als Docker Container einrichten

Variante A: Über die GUI (Container Manager)

Container Manager öffnen > Registrierung > ollama/ollama suchen
Image herunterladen (Tag: latest, ca. 1,2 GB)
Container erstellen mit diesen Einstellungen:

# Container-Einstellungen in der GUI entsprechen:
container_name: ollama
image: ollama/ollama:latest
restart_policy: unless-stopped
ports:
  - "11434:11434"  # Ollama API
volumes:
  - /volume1/docker/ollama:/root/.ollama  # Modell-Speicher
environment:
  - OLLAMA_HOST=0.0.0.0
  - OLLAMA_NUM_PARALLEL=1    # NAS-schonend: 1 Request gleichzeitig
  - OLLAMA_MAX_LOADED_MODELS=1
resources:
  memory_limit: 12g  # Bei 16 GB RAM im NAS

Container starten

Variante B: Über SSH (für Fortgeschrittene)

SSH auf der Synology aktivieren (Systemsteuerung > Terminal & SNMP) und per Terminal verbinden:

# SSH-Verbindung
ssh admin@synology-ip

# Ollama-Verzeichnis anlegen
sudo mkdir -p /volume1/docker/ollama

# Container starten
sudo docker run -d \
  --name ollama \
  --restart unless-stopped \
  -p 11434:11434 \
  -v /volume1/docker/ollama:/root/.ollama \
  -e OLLAMA_HOST=0.0.0.0 \
  -e OLLAMA_NUM_PARALLEL=1 \
  -e OLLAMA_MAX_LOADED_MODELS=1 \
  --memory=12g \
  ollama/ollama:latest

Erstes Modell herunterladen

Nach dem Start des Containers ein Modell laden -- über die Synology-Terminal-Funktion im Container Manager oder per SSH:

# In den Container wechseln
sudo docker exec -it ollama bash

# Kleines Modell laden (empfohlen für NAS)
ollama pull phi3:mini          # 2,3 GB, schnell
ollama pull gemma2:2b          # 1,6 GB, kompakt
ollama pull llama3.2:3b        # 2,0 GB, gute Qualität

# Test
ollama run phi3:mini "Was ist ein NAS?"

Für größere Modelle wie Llama 3.1 8B (4,7 GB) braucht das NAS mindestens 16 GB RAM. Die Ladezeit beträgt 15-30 Sekunden, danach antwortet das Modell in 5-12 Sekunden pro Anfrage.

Performance-Optimierung

Realistische Erwartungen

Synology NAS-Systeme haben keine GPU. Ollama läuft auf der CPU -- das ist spürbar langsamer als auf einem Desktop-PC mit Grafikkarte.

Modell	Parameter	RAM-Bedarf	Antwortzeit (DS923+, 16 GB)	Tokens/Sek
Phi-3 Mini	3,8B	3 GB	3-6 Sek	8-12
Gemma 2 2B	2,6B	2,5 GB	2-5 Sek	10-15
Llama 3.2 3B	3,2B	3 GB	4-7 Sek	7-11
Mistral 7B	7,2B	5,5 GB	8-15 Sek	4-6
Llama 3.1 8B	8B	6 GB	10-18 Sek	3-5

Tipps für bessere Performance

1. Quantisierte Modelle verwenden: Q4_K_M-Varianten sind 40 % kleiner und nur minimal schlechter in der Qualität:

# Statt dem vollen Modell:
ollama pull llama3.1:8b-instruct-q4_K_M
# Spart 2 GB RAM, kaum Qualitätsverlust

2. Swap-Partition vergrößern: Falls der RAM knapp wird, hilft eine SSD-basierte Swap-Partition (nicht auf HDDs):

# Swap auf SSD erstellen (falls NVMe-Cache vorhanden)
sudo fallocate -l 8G /volume2/swapfile
sudo chmod 600 /volume2/swapfile
sudo mkswap /volume2/swapfile
sudo swapon /volume2/swapfile

3. Andere Dienste reduzieren: Surveillance Station, Active Backup und Synology Drive verbrauchen RAM. Während der KI-Nutzung nicht benötigte Pakete pausieren.

4. OLLAMA_NUM_PARALLEL=1 setzen: Verhindert, dass zwei Anfragen gleichzeitig verarbeitet werden und das NAS einfrieren lassen.

Web-Oberfläche mit Open WebUI

Ollama allein bietet nur eine API. Für eine ChatGPT-ähnliche Oberfläche eignet sich Open WebUI als zweiter Docker-Container:

sudo docker run -d \
  --name open-webui \
  --restart unless-stopped \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://ollama:11434 \
  --link ollama \
  -v /volume1/docker/open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

Danach ist die Oberfläche unter http://synology-ip:3000 erreichbar. Mehrere Benutzer können Accounts anlegen, Chat-Verläufe werden lokal gespeichert.

Mehr zur Einrichtung von Open WebUI im ausführlichen Unternehmens-Leitfaden.

Anwendungsfälle im Betrieb

E-Mail-Entwürfe: Phi-3 Mini formuliert Angebote, Mahnungen und Kundenanfragen auf Deutsch in akzeptabler Qualität. Zeitersparnis: 5-10 Minuten pro E-Mail.

Dokumenten-Zusammenfassung: Lange Protokolle, Verträge oder Normen auf 1 Seite zusammenfassen. Das Modell verarbeitet bis zu 4.000 Wörter pro Anfrage.

Internes Wissens-Wiki: Mit einer RAG-Pipeline können Mitarbeitende Fragen zu internen Dokumenten stellen, die auf dem NAS liegen.

Code-Unterstützung: Für IT-nahe Betriebe hilft Llama 3.1 8B bei Python-Skripten, SQL-Abfragen und Shell-Befehlen. Vergleich verschiedener Modelle im vLLM-Server-Leitfaden.

Sicherheitshinweise

Firewall: Ollama-Port 11434 nur im internen Netzwerk freigeben, nicht nach außen öffnen
Updates: Container regelmäßig aktualisieren (docker pull ollama/ollama:latest)
Backup: Das Verzeichnis /volume1/docker/ollama enthält heruntergeladene Modelle (mehrere GB) -- aus dem NAS-Backup ausschließen, da Modelle jederzeit neu geladen werden können
Nutzerverwaltung: Open WebUI bringt eigene Authentifizierung mit. Erste Registrierung wird automatisch Admin

Häufige Fragen

Kann ich Ollama auf einem ARM-basierten Synology NAS nutzen?

Nein. Modelle wie DS120j, DS220j oder DS420j nutzen ARM-Prozessoren (Realtek RTD1296 oder ähnlich). Ollama benötigt eine x86_64-CPU. Zudem haben ARM-Modelle meist nur 512 MB bis 2 GB RAM -- weit unter dem Minimum für LLMs. Für diese Geräte ist Ollama nicht geeignet.

Wie viel Speicherplatz brauche ich für Modelle?

Ein kleines Modell (Phi-3 Mini) belegt 2,3 GB. Ein 7B-Modell wie Mistral benötigt 4-5 GB. Planen Sie 20-50 GB für mehrere Modelle ein. Da NAS-Systeme typischerweise mehrere TB Speicher haben, ist Platzmangel selten ein Problem. Modelle werden auf dem RAID-Volume gespeichert und profitieren von der Redundanz.

Beeinträchtigt Ollama die NAS-Performance?

Ja, während einer Anfrage. Die CPU-Auslastung steigt auf 80-100 % für die Dauer der Antwortgenerierung (3-18 Sekunden). Dateizugriffe und Backups laufen in dieser Zeit langsamer. Im Leerlauf verbraucht Ollama minimal Ressourcen (unter 100 MB RAM, 0 % CPU). Empfehlung: Schwere Backup-Jobs auf Nachtstunden legen.

Kann ich das NAS auch als GPU-Server nutzen?

Synology NAS-Systeme haben keine PCIe-Slots für Grafikkarten (Ausnahme: einige Rackstation-Modelle, aber ohne GPU-Treiber-Support). Für GPU-beschleunigte KI brauchen Sie einen separaten Server. Der Hardware-Guide für KI-Server zeigt Optionen ab 2.500 €.

Lohnt sich das oder soll ich einfach ChatGPT nutzen?

Für datensensible Anwendungen (Kundendaten, Angebote, interne Dokumente) lohnt sich Ollama auf dem NAS -- keine monatlichen Kosten, volle Datenkontrolle. Für gelegentliche Fragen ohne Firmenbezug ist ChatGPT schneller und besser. Die Kombination ist oft die pragmatischste Lösung: ChatGPT für allgemeine Aufgaben, Ollama für alles mit Firmendaten.