Published on2. Juli 2026Ollama auf Kubernetes: LLM-Cluster mit Autoscalingollamakubernetesgpuself-hostedinfrastrukturmittelstanddeutschlandOllama auf Kubernetes deployen: StatefulSet, NVIDIA GPU-Scheduling, Helm Chart und HPA-Autoscaling für einen produktiven LLM-Cluster.