- Published on
LocalAI auf Raspberry Pi: Edge-Inferenz Setup
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ein Raspberry Pi 5 mit 8 GB RAM führt kleine KI-Modelle lokal aus: Textklassifikation in 200 ms, Embeddings in 50 ms, Sentiment-Analyse in 150 ms. Für Edge-Szenarien in der Produktion, am Point of Sale oder in Filialen bietet das eine KI-Lösung für €80 Hardware-Kosten ohne Cloud-Abhängigkeit und ohne laufende API-Gebühren.
Warum Edge-Inferenz auf dem Raspberry Pi
Nicht jeder KI-Einsatz braucht eine GPU oder Cloud-Anbindung. Drei Szenarien, in denen ein Raspberry Pi die bessere Lösung ist:
Szenario 1: Produktionshalle ohne Internet. Qualitätskontrolle per Bildklassifikation an einer Maschine, die aus Sicherheitsgründen nicht im Firmennetzwerk hängt. Der Pi klassifiziert Gut-/Schlechtteile direkt an der Maschine.
Szenario 2: Filiale mit Datenschutz. Ein Einzelhändler will Kundenfeedback per Sentiment-Analyse auswerten, aber keine Kundendaten in die Cloud senden. Der Pi analysiert am Point of Sale lokal.
Szenario 3: Sensor-Gateway. Ein Fertigungsbetrieb sammelt Vibrationsdaten von 20 Maschinen. Statt alle Rohdaten an den Server zu senden, filtert der Pi per Anomalieerkennung und sendet nur relevante Events.
Hardware: Raspberry Pi 5 mit 8 GB
Der Raspberry Pi 5 mit 8 GB RAM ist die Mindestanforderung für sinnvolle KI-Inferenz. Der Pi 4 funktioniert ebenfalls, ist aber 40 % langsamer.
| Komponente | Modell | Kosten |
|---|---|---|
| Raspberry Pi 5, 8 GB | BCM2712, Quad-Core ARM A76 | €80 |
| MicroSD-Karte 64 GB | A2 UHS-I | €12 |
| Netzteil USB-C 27W | offizielles Pi-Netzteil | €12 |
| Gehäuse mit Kühler | aktiv gekühlt | €15 |
| Gesamt | €119 |
Optional: Ein Coral USB Accelerator (€60) beschleunigt TensorFlow-Lite-Modelle um den Faktor 10. Für Bildklassifikation empfohlen, für Textverarbeitung nicht nötig.
LocalAI installieren und konfigurieren
LocalAI ist ein Open-Source-Inferenz-Server, der eine OpenAI-kompatible API bereitstellt. Er läuft auf ARM-Prozessoren und unterstützt ONNX, GGUF und TensorFlow-Lite-Modelle.
# LocalAI Setup auf Raspberry Pi 5
installation:
os: "Raspberry Pi OS Lite (64-bit, Bookworm)"
localai_version: "2.12"
install_methode: "Docker (empfohlen)"
docker_image: "localai/localai:v2.12-aio-cpu"
port: 8080
modelle:
textklassifikation:
name: "all-MiniLM-L6-v2"
format: "ONNX"
groesse_mb: 90
inferenz_ms: 200
use_case: "Sentiment, Kategorisierung, Intent"
embeddings:
name: "BGE-small-de-v1.5"
format: "ONNX"
groesse_mb: 130
inferenz_ms: 50
use_case: "Semantische Suche, RAG-Retrieval"
llm_klein:
name: "TinyLlama-1.1B-Chat"
format: "GGUF Q4_K_M"
groesse_mb: 670
inferenz_tokens_pro_sekunde: 8
use_case: "Einfache Q&A, Zusammenfassung kurzer Texte"
Nach dem Start ist die API unter http://pi-ip:8080/v1/ erreichbar – kompatibel mit jeder Anwendung, die die OpenAI-API nutzt. Die Modelle werden beim ersten Aufruf geladen (5–15 Sekunden) und bleiben im RAM.
Performance: Was geht – und was nicht
Der Raspberry Pi ist kein GPU-Server. Große Sprachmodelle (7B+ Parameter) sind zu langsam für interaktive Anwendungen. Aber für spezialisierte kleine Modelle liefert er überraschend gute Performance:
Gut geeignet:
- Textklassifikation (Sentiment, Spam, Kategorie): 200 ms pro Anfrage
- Embeddings (256–384 Dimensionen): 50 ms pro Text
- Named Entity Recognition: 150 ms pro Satz
- Anomalieerkennung auf Sensordaten: 10 ms pro Datenpunkt
- Bildklassifikation mit MobileNet: 100 ms pro Bild (mit Coral: 10 ms)
Nicht geeignet:
- LLM-Chat (TinyLlama 1.1B): 8 Token/Sekunde – akzeptabel für Batch, zu langsam für Echtzeit
- Whisper Transkription: 0,1x Echtzeit – nicht praktikabel
- Bildgenerierung: Nicht möglich
Praxisbeispiel: Qualitätskontrolle am Band
Ein Kunststoffverarbeiter (120 Mitarbeiter) nutzt einen Raspberry Pi 5 mit Coral Accelerator an jeder Spritzgussmaschine. Eine USB-Kamera fotografiert jedes Teil, MobileNet v2 klassifiziert in Gut/Schlecht. Ergebnis: 50 ms Klassifikation, 98,2 % Accuracy, €119 Hardware pro Maschine.
Vorher: Manuelle Sichtkontrolle, 2 % Ausschuss an Kunden geliefert. Nachher: 0,3 % Ausschuss, Reklamationskosten um €42.000/Jahr gesunken. Die Kostenplanung für KI-Projekte zeigt: Der ROI pro Maschine ist nach 2 Wochen erreicht.
Netzwerk und Sicherheit
Edge-Geräte in der Produktion brauchen minimale Angriffsfläche:
- Kein SSH von außen: Nur über VPN oder lokales Netzwerk
- Read-only Filesystem: OverlayFS verhindert dauerhafte Änderungen
- Automatische Updates: Unattended upgrades für Sicherheitspatches
- Monitoring: Heartbeat an zentralen Server, Alarm bei Ausfall
Die Daten verlassen den Pi nur als Ergebnis (Gut/Schlecht, Anomalie-Score), nicht als Rohdaten. Das vereinfacht die DSGVO-Compliance erheblich.
Skalierung: 10–100 Edge-Geräte verwalten
Ab zehn Pis wird die manuelle Verwaltung unpraktisch. Ansible oder Balena Cloud ermöglichen zentrales Deployment und Updates:
- Modell-Update auf allen Pis gleichzeitig ausrollen
- Monitoring-Dashboard für alle Edge-Geräte
- Automatischer Neustart bei Absturz
Ein zentrales Management für 20 Pis kostet €50–€100/Monat (Balena Cloud) oder €0 (Ansible Self-Hosted, aber höherer Einrichtungsaufwand). Der KI-Implementierungsguide beschreibt Edge-Deployment-Strategien.
Häufige Fragen
Kann ich auch den Raspberry Pi 4 nutzen?
Ja, mit 8 GB RAM. Die Performance ist 30–40 % niedriger als beim Pi 5. Für Embeddings und einfache Klassifikation reicht das. Für LLM-Inferenz ist der Pi 4 zu langsam.
Wie lange hält ein Raspberry Pi im Dauerbetrieb?
Bei aktiver Kühlung und Industriegehäuse: 5+ Jahre. Die MicroSD-Karte ist die Schwachstelle – nutzen Sie industrielle Karten (SanDisk Industrial) und minimieren Sie Schreibvorgänge.
Gibt es Alternativen zum Raspberry Pi?
NVIDIA Jetson Orin Nano (€250) für GPU-beschleunigte Inferenz, Orange Pi 5 (€90) als günstigere ARM-Alternative, Intel NUC (€300) für x86-Kompatibilität. Der Pi bietet das beste Preis-Leistungs-Verhältnis für CPU-only-Inferenz.
Wie aktualisiere ich die Modelle?
Neues Modell auf den Pi kopieren (rsync, Ansible) und den LocalAI-Container neu starten. Downtime: 15–30 Sekunden. Für Zero-Downtime: Zwei LocalAI-Instanzen auf verschiedenen Ports, Loadbalancer wechselt nach dem Neustart.
Kann der Pi auch Trainingsdaten sammeln?
Ja. Der Pi speichert Bilder oder Texte, die das Modell unsicher klassifiziert (Confidence unter 80 %), auf einem USB-Stick. Regelmäßig werden diese Daten zur Zentrale übertragen und als Trainingsdaten für das nächste Modell-Update genutzt.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
ChatGPT-Alternative lokal: 5 Tools ohne Abo
5 kostenlose ChatGPT-Alternativen lokal ohne Abo: Ollama, LM Studio, GPT4All, Jan und LocalAI im Benchmark-Vergleich für den Mittelstand.
KI-Server kaufen: GPU-Guide für unter €10.000
KI-Server für den Mittelstand unter €10.000: GPU-Vergleich, 3 Konfigurationen und Benchmarks. RTX 4090 vs. A4000 vs. L4 mit Einkaufsliste.
Whisper lokal: Meetings transkribieren auf Deutsch
OpenAI Whisper lokal installieren und deutsche Meetings transkribieren. DSGVO-konform, ohne Cloud, mit 95 % Genauigkeit ab Tag 1.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)