Published on

LocalAI auf Raspberry Pi: Edge-Inferenz Setup

Authors

TL;DR

Ein Raspberry Pi 5 mit 8 GB RAM führt kleine KI-Modelle lokal aus: Textklassifikation in 200 ms, Embeddings in 50 ms, Sentiment-Analyse in 150 ms. Für Edge-Szenarien in der Produktion, am Point of Sale oder in Filialen bietet das eine KI-Lösung für €80 Hardware-Kosten ohne Cloud-Abhängigkeit und ohne laufende API-Gebühren.


Warum Edge-Inferenz auf dem Raspberry Pi

Nicht jeder KI-Einsatz braucht eine GPU oder Cloud-Anbindung. Drei Szenarien, in denen ein Raspberry Pi die bessere Lösung ist:

Szenario 1: Produktionshalle ohne Internet. Qualitätskontrolle per Bildklassifikation an einer Maschine, die aus Sicherheitsgründen nicht im Firmennetzwerk hängt. Der Pi klassifiziert Gut-/Schlechtteile direkt an der Maschine.

Szenario 2: Filiale mit Datenschutz. Ein Einzelhändler will Kundenfeedback per Sentiment-Analyse auswerten, aber keine Kundendaten in die Cloud senden. Der Pi analysiert am Point of Sale lokal.

Szenario 3: Sensor-Gateway. Ein Fertigungsbetrieb sammelt Vibrationsdaten von 20 Maschinen. Statt alle Rohdaten an den Server zu senden, filtert der Pi per Anomalieerkennung und sendet nur relevante Events.

Hardware: Raspberry Pi 5 mit 8 GB

Der Raspberry Pi 5 mit 8 GB RAM ist die Mindestanforderung für sinnvolle KI-Inferenz. Der Pi 4 funktioniert ebenfalls, ist aber 40 % langsamer.

KomponenteModellKosten
Raspberry Pi 5, 8 GBBCM2712, Quad-Core ARM A76€80
MicroSD-Karte 64 GBA2 UHS-I€12
Netzteil USB-C 27Woffizielles Pi-Netzteil€12
Gehäuse mit Kühleraktiv gekühlt€15
Gesamt€119

Optional: Ein Coral USB Accelerator (€60) beschleunigt TensorFlow-Lite-Modelle um den Faktor 10. Für Bildklassifikation empfohlen, für Textverarbeitung nicht nötig.

LocalAI installieren und konfigurieren

LocalAI ist ein Open-Source-Inferenz-Server, der eine OpenAI-kompatible API bereitstellt. Er läuft auf ARM-Prozessoren und unterstützt ONNX, GGUF und TensorFlow-Lite-Modelle.

# LocalAI Setup auf Raspberry Pi 5
installation:
  os: "Raspberry Pi OS Lite (64-bit, Bookworm)"
  localai_version: "2.12"
  install_methode: "Docker (empfohlen)"
  docker_image: "localai/localai:v2.12-aio-cpu"
  port: 8080
modelle:
  textklassifikation:
    name: "all-MiniLM-L6-v2"
    format: "ONNX"
    groesse_mb: 90
    inferenz_ms: 200
    use_case: "Sentiment, Kategorisierung, Intent"
  embeddings:
    name: "BGE-small-de-v1.5"
    format: "ONNX"
    groesse_mb: 130
    inferenz_ms: 50
    use_case: "Semantische Suche, RAG-Retrieval"
  llm_klein:
    name: "TinyLlama-1.1B-Chat"
    format: "GGUF Q4_K_M"
    groesse_mb: 670
    inferenz_tokens_pro_sekunde: 8
    use_case: "Einfache Q&A, Zusammenfassung kurzer Texte"

Nach dem Start ist die API unter http://pi-ip:8080/v1/ erreichbar – kompatibel mit jeder Anwendung, die die OpenAI-API nutzt. Die Modelle werden beim ersten Aufruf geladen (5–15 Sekunden) und bleiben im RAM.

Performance: Was geht – und was nicht

Der Raspberry Pi ist kein GPU-Server. Große Sprachmodelle (7B+ Parameter) sind zu langsam für interaktive Anwendungen. Aber für spezialisierte kleine Modelle liefert er überraschend gute Performance:

Gut geeignet:

  • Textklassifikation (Sentiment, Spam, Kategorie): 200 ms pro Anfrage
  • Embeddings (256–384 Dimensionen): 50 ms pro Text
  • Named Entity Recognition: 150 ms pro Satz
  • Anomalieerkennung auf Sensordaten: 10 ms pro Datenpunkt
  • Bildklassifikation mit MobileNet: 100 ms pro Bild (mit Coral: 10 ms)

Nicht geeignet:

  • LLM-Chat (TinyLlama 1.1B): 8 Token/Sekunde – akzeptabel für Batch, zu langsam für Echtzeit
  • Whisper Transkription: 0,1x Echtzeit – nicht praktikabel
  • Bildgenerierung: Nicht möglich

Praxisbeispiel: Qualitätskontrolle am Band

Ein Kunststoffverarbeiter (120 Mitarbeiter) nutzt einen Raspberry Pi 5 mit Coral Accelerator an jeder Spritzgussmaschine. Eine USB-Kamera fotografiert jedes Teil, MobileNet v2 klassifiziert in Gut/Schlecht. Ergebnis: 50 ms Klassifikation, 98,2 % Accuracy, €119 Hardware pro Maschine.

Vorher: Manuelle Sichtkontrolle, 2 % Ausschuss an Kunden geliefert. Nachher: 0,3 % Ausschuss, Reklamationskosten um €42.000/Jahr gesunken. Die Kostenplanung für KI-Projekte zeigt: Der ROI pro Maschine ist nach 2 Wochen erreicht.

Netzwerk und Sicherheit

Edge-Geräte in der Produktion brauchen minimale Angriffsfläche:

  • Kein SSH von außen: Nur über VPN oder lokales Netzwerk
  • Read-only Filesystem: OverlayFS verhindert dauerhafte Änderungen
  • Automatische Updates: Unattended upgrades für Sicherheitspatches
  • Monitoring: Heartbeat an zentralen Server, Alarm bei Ausfall

Die Daten verlassen den Pi nur als Ergebnis (Gut/Schlecht, Anomalie-Score), nicht als Rohdaten. Das vereinfacht die DSGVO-Compliance erheblich.

Skalierung: 10–100 Edge-Geräte verwalten

Ab zehn Pis wird die manuelle Verwaltung unpraktisch. Ansible oder Balena Cloud ermöglichen zentrales Deployment und Updates:

  • Modell-Update auf allen Pis gleichzeitig ausrollen
  • Monitoring-Dashboard für alle Edge-Geräte
  • Automatischer Neustart bei Absturz

Ein zentrales Management für 20 Pis kostet €50–€100/Monat (Balena Cloud) oder €0 (Ansible Self-Hosted, aber höherer Einrichtungsaufwand). Der KI-Implementierungsguide beschreibt Edge-Deployment-Strategien.

Häufige Fragen

Kann ich auch den Raspberry Pi 4 nutzen?

Ja, mit 8 GB RAM. Die Performance ist 30–40 % niedriger als beim Pi 5. Für Embeddings und einfache Klassifikation reicht das. Für LLM-Inferenz ist der Pi 4 zu langsam.

Wie lange hält ein Raspberry Pi im Dauerbetrieb?

Bei aktiver Kühlung und Industriegehäuse: 5+ Jahre. Die MicroSD-Karte ist die Schwachstelle – nutzen Sie industrielle Karten (SanDisk Industrial) und minimieren Sie Schreibvorgänge.

Gibt es Alternativen zum Raspberry Pi?

NVIDIA Jetson Orin Nano (€250) für GPU-beschleunigte Inferenz, Orange Pi 5 (€90) als günstigere ARM-Alternative, Intel NUC (€300) für x86-Kompatibilität. Der Pi bietet das beste Preis-Leistungs-Verhältnis für CPU-only-Inferenz.

Wie aktualisiere ich die Modelle?

Neues Modell auf den Pi kopieren (rsync, Ansible) und den LocalAI-Container neu starten. Downtime: 15–30 Sekunden. Für Zero-Downtime: Zwei LocalAI-Instanzen auf verschiedenen Ports, Loadbalancer wechselt nach dem Neustart.

Kann der Pi auch Trainingsdaten sammeln?

Ja. Der Pi speichert Bilder oder Texte, die das Modell unsicher klassifiziert (Confidence unter 80 %), auf einem USB-Stick. Regelmäßig werden diese Daten zur Zentrale übertragen und als Trainingsdaten für das nächste Modell-Update genutzt.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)