- Published on
Ollama auf Synology NAS: Private KI einrichten
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ollama läuft auf Synology NAS-Modellen mit Intel Celeron oder AMD Ryzen CPU via Docker Container. Kleine Modelle (Phi-3, Gemma 2B) antworten in 3-8 Sekunden. Für 7B-Modelle braucht es mindestens 16 GB RAM. Die Installation dauert 30 Minuten -- ohne Linux-Kenntnisse über die Container-Manager-Oberfläche.
Warum KI auf dem NAS?
Ein Handwerksbetrieb in Bayern hat 14 Mitarbeitende und eine Synology DS923+ im Keller. Das NAS sichert Fotos, Aufmaße und Rechnungen. Der Geschäftsführer möchte ChatGPT-ähnliche Funktionen nutzen -- aber keine Firmendaten an OpenAI senden.
Dieses Szenario trifft auf tausende kleine Betriebe in Deutschland zu. Die Synology steht bereits da, läuft 24/7 und hat oft ungenutzte Rechenkapazität. Ollama als Docker-Container verwandelt sie in einen privaten KI-Server -- DSGVO-konform, ohne monatliche Kosten und ohne Cloud-Abhängigkeit.
Wer Ollama bereits auf Ubuntu kennt, findet die NAS-Variante deutlich einfacher. Der Ollama Modelfile Guide zeigt, wie individuelle Modelle konfiguriert werden.
Hardware-Check: Welche Synology kann Ollama?
Nicht jedes NAS-Modell eignet sich. Entscheidend sind CPU-Architektur und RAM.
Getestete Modelle
| Synology Modell | CPU | RAM (ab Werk) | Max RAM | Ollama-tauglich? |
|---|---|---|---|---|
| DS224+ | Intel Celeron J4125 | 2 GB | 8 GB | Bedingt (nur 1-3B Modelle) |
| DS423+ | Intel Celeron J4125 | 2 GB | 8 GB | Bedingt |
| DS723+ | AMD Ryzen R1600 | 2 GB | 32 GB | Ja (mit RAM-Upgrade) |
| DS923+ | AMD Ryzen R1600 | 4 GB | 32 GB | Ja |
| DS1621+ | AMD Ryzen V1500B | 4 GB | 32 GB | Ja |
| DS1823xs+ | AMD Ryzen V1780B | 8 GB | 32 GB | Ja |
| RS1221+ | AMD Ryzen V1500B | 4 GB | 32 GB | Ja |
Minimum für brauchbare Ergebnisse: 8 GB RAM und eine x86_64-CPU. ARM-basierte Modelle (DS120j, DS220j) sind nicht kompatibel.
Empfehlung: DS923+ oder DS723+ mit RAM-Upgrade auf 16 GB oder 32 GB. Das RAM-Upgrade kostet 35-80 € (16 GB DDR4 ECC SO-DIMM) und ist in 5 Minuten eingebaut.
Installation Schritt für Schritt
Voraussetzung: Container Manager installieren
- DSM öffnen (im Browser:
http://synology-ip:5000) - Paketzentrum aufrufen
- Container Manager suchen und installieren (ehemals Docker)
- Nach Installation: Container Manager starten
Ollama als Docker Container einrichten
Variante A: Über die GUI (Container Manager)
- Container Manager öffnen > Registrierung >
ollama/ollamasuchen - Image herunterladen (Tag:
latest, ca. 1,2 GB) - Container erstellen mit diesen Einstellungen:
# Container-Einstellungen in der GUI entsprechen:
container_name: ollama
image: ollama/ollama:latest
restart_policy: unless-stopped
ports:
- "11434:11434" # Ollama API
volumes:
- /volume1/docker/ollama:/root/.ollama # Modell-Speicher
environment:
- OLLAMA_HOST=0.0.0.0
- OLLAMA_NUM_PARALLEL=1 # NAS-schonend: 1 Request gleichzeitig
- OLLAMA_MAX_LOADED_MODELS=1
resources:
memory_limit: 12g # Bei 16 GB RAM im NAS
- Container starten
Variante B: Über SSH (für Fortgeschrittene)
SSH auf der Synology aktivieren (Systemsteuerung > Terminal & SNMP) und per Terminal verbinden:
# SSH-Verbindung
ssh admin@synology-ip
# Ollama-Verzeichnis anlegen
sudo mkdir -p /volume1/docker/ollama
# Container starten
sudo docker run -d \
--name ollama \
--restart unless-stopped \
-p 11434:11434 \
-v /volume1/docker/ollama:/root/.ollama \
-e OLLAMA_HOST=0.0.0.0 \
-e OLLAMA_NUM_PARALLEL=1 \
-e OLLAMA_MAX_LOADED_MODELS=1 \
--memory=12g \
ollama/ollama:latest
Erstes Modell herunterladen
Nach dem Start des Containers ein Modell laden -- über die Synology-Terminal-Funktion im Container Manager oder per SSH:
# In den Container wechseln
sudo docker exec -it ollama bash
# Kleines Modell laden (empfohlen für NAS)
ollama pull phi3:mini # 2,3 GB, schnell
ollama pull gemma2:2b # 1,6 GB, kompakt
ollama pull llama3.2:3b # 2,0 GB, gute Qualität
# Test
ollama run phi3:mini "Was ist ein NAS?"
Für größere Modelle wie Llama 3.1 8B (4,7 GB) braucht das NAS mindestens 16 GB RAM. Die Ladezeit beträgt 15-30 Sekunden, danach antwortet das Modell in 5-12 Sekunden pro Anfrage.
Performance-Optimierung
Realistische Erwartungen
Synology NAS-Systeme haben keine GPU. Ollama läuft auf der CPU -- das ist spürbar langsamer als auf einem Desktop-PC mit Grafikkarte.
| Modell | Parameter | RAM-Bedarf | Antwortzeit (DS923+, 16 GB) | Tokens/Sek |
|---|---|---|---|---|
| Phi-3 Mini | 3,8B | 3 GB | 3-6 Sek | 8-12 |
| Gemma 2 2B | 2,6B | 2,5 GB | 2-5 Sek | 10-15 |
| Llama 3.2 3B | 3,2B | 3 GB | 4-7 Sek | 7-11 |
| Mistral 7B | 7,2B | 5,5 GB | 8-15 Sek | 4-6 |
| Llama 3.1 8B | 8B | 6 GB | 10-18 Sek | 3-5 |
Tipps für bessere Performance
1. Quantisierte Modelle verwenden: Q4_K_M-Varianten sind 40 % kleiner und nur minimal schlechter in der Qualität:
# Statt dem vollen Modell:
ollama pull llama3.1:8b-instruct-q4_K_M
# Spart 2 GB RAM, kaum Qualitätsverlust
2. Swap-Partition vergrößern: Falls der RAM knapp wird, hilft eine SSD-basierte Swap-Partition (nicht auf HDDs):
# Swap auf SSD erstellen (falls NVMe-Cache vorhanden)
sudo fallocate -l 8G /volume2/swapfile
sudo chmod 600 /volume2/swapfile
sudo mkswap /volume2/swapfile
sudo swapon /volume2/swapfile
3. Andere Dienste reduzieren: Surveillance Station, Active Backup und Synology Drive verbrauchen RAM. Während der KI-Nutzung nicht benötigte Pakete pausieren.
4. OLLAMA_NUM_PARALLEL=1 setzen: Verhindert, dass zwei Anfragen gleichzeitig verarbeitet werden und das NAS einfrieren lassen.
Web-Oberfläche mit Open WebUI
Ollama allein bietet nur eine API. Für eine ChatGPT-ähnliche Oberfläche eignet sich Open WebUI als zweiter Docker-Container:
sudo docker run -d \
--name open-webui \
--restart unless-stopped \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://ollama:11434 \
--link ollama \
-v /volume1/docker/open-webui:/app/backend/data \
ghcr.io/open-webui/open-webui:main
Danach ist die Oberfläche unter http://synology-ip:3000 erreichbar. Mehrere Benutzer können Accounts anlegen, Chat-Verläufe werden lokal gespeichert.
Mehr zur Einrichtung von Open WebUI im ausführlichen Unternehmens-Leitfaden.
Anwendungsfälle im Betrieb
E-Mail-Entwürfe: Phi-3 Mini formuliert Angebote, Mahnungen und Kundenanfragen auf Deutsch in akzeptabler Qualität. Zeitersparnis: 5-10 Minuten pro E-Mail.
Dokumenten-Zusammenfassung: Lange Protokolle, Verträge oder Normen auf 1 Seite zusammenfassen. Das Modell verarbeitet bis zu 4.000 Wörter pro Anfrage.
Internes Wissens-Wiki: Mit einer RAG-Pipeline können Mitarbeitende Fragen zu internen Dokumenten stellen, die auf dem NAS liegen.
Code-Unterstützung: Für IT-nahe Betriebe hilft Llama 3.1 8B bei Python-Skripten, SQL-Abfragen und Shell-Befehlen. Vergleich verschiedener Modelle im vLLM-Server-Leitfaden.
Sicherheitshinweise
- Firewall: Ollama-Port 11434 nur im internen Netzwerk freigeben, nicht nach außen öffnen
- Updates: Container regelmäßig aktualisieren (
docker pull ollama/ollama:latest) - Backup: Das Verzeichnis
/volume1/docker/ollamaenthält heruntergeladene Modelle (mehrere GB) -- aus dem NAS-Backup ausschließen, da Modelle jederzeit neu geladen werden können - Nutzerverwaltung: Open WebUI bringt eigene Authentifizierung mit. Erste Registrierung wird automatisch Admin
Häufige Fragen
Kann ich Ollama auf einem ARM-basierten Synology NAS nutzen?
Nein. Modelle wie DS120j, DS220j oder DS420j nutzen ARM-Prozessoren (Realtek RTD1296 oder ähnlich). Ollama benötigt eine x86_64-CPU. Zudem haben ARM-Modelle meist nur 512 MB bis 2 GB RAM -- weit unter dem Minimum für LLMs. Für diese Geräte ist Ollama nicht geeignet.
Wie viel Speicherplatz brauche ich für Modelle?
Ein kleines Modell (Phi-3 Mini) belegt 2,3 GB. Ein 7B-Modell wie Mistral benötigt 4-5 GB. Planen Sie 20-50 GB für mehrere Modelle ein. Da NAS-Systeme typischerweise mehrere TB Speicher haben, ist Platzmangel selten ein Problem. Modelle werden auf dem RAID-Volume gespeichert und profitieren von der Redundanz.
Beeinträchtigt Ollama die NAS-Performance?
Ja, während einer Anfrage. Die CPU-Auslastung steigt auf 80-100 % für die Dauer der Antwortgenerierung (3-18 Sekunden). Dateizugriffe und Backups laufen in dieser Zeit langsamer. Im Leerlauf verbraucht Ollama minimal Ressourcen (unter 100 MB RAM, 0 % CPU). Empfehlung: Schwere Backup-Jobs auf Nachtstunden legen.
Kann ich das NAS auch als GPU-Server nutzen?
Synology NAS-Systeme haben keine PCIe-Slots für Grafikkarten (Ausnahme: einige Rackstation-Modelle, aber ohne GPU-Treiber-Support). Für GPU-beschleunigte KI brauchen Sie einen separaten Server. Der Hardware-Guide für KI-Server zeigt Optionen ab 2.500 €.
Lohnt sich das oder soll ich einfach ChatGPT nutzen?
Für datensensible Anwendungen (Kundendaten, Angebote, interne Dokumente) lohnt sich Ollama auf dem NAS -- keine monatlichen Kosten, volle Datenkontrolle. Für gelegentliche Fragen ohne Firmenbezug ist ChatGPT schneller und besser. Die Kombination ist oft die pragmatischste Lösung: ChatGPT für allgemeine Aufgaben, Ollama für alles mit Firmendaten.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
OpenWebUI + Ollama: Firmen-ChatGPT in 30 Minuten
OpenWebUI und Ollama als Firmen-ChatGPT in 30 Minuten aufsetzen: Multi-User, RAG-Dokumentensuche und DSGVO-konform für €89/Monat. Docker-Compose-Setup mit Schritt-für-Schritt-Anleitung.
Ollama Cluster: Mehrere Server load-balancen
Ollama Cluster mit Load Balancing über mehrere Server: 200+ gleichzeitige Nutzer, automatisches Failover und horizontale Skalierung. Nginx-Setup und Praxis-Konfiguration für den Mittelstand.
Ollama mit GPU: CUDA-Setup auf Ubuntu Server
Ollama mit NVIDIA GPU und CUDA auf Ubuntu Server einrichten: Token-Geschwindigkeit steigt um 8x gegenüber CPU. Komplette Anleitung für CUDA-Treiber, VRAM-Optimierung und Produktiv-Betrieb.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)