- Published on
Ollama auf Ubuntu: LLM lokal in 15 Minuten
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ollama macht die Installation lokaler LLMs auf Ubuntu so einfach wie apt install. Ein Befehl installiert die Software, ein zweiter lädt das Modell. Llama 3.1 8B läuft auf einem €200-Server mit 16 GB RAM. Llama 3.1 70B braucht eine GPU mit 48 GB VRAM. Keine API-Kosten, keine Daten an Dritte, volle DSGVO-Kontrolle.
Warum ein lokales LLM?
Drei Gründe, warum Mittelständler LLMs lokal betreiben:
Datenschutz: Keine Kundendaten, Verträge oder Mitarbeiterdaten an OpenAI oder Google. Alles bleibt im Unternehmensnetzwerk.
Kosten: Ab 500 LLM-Anfragen pro Tag ist ein eigener Server günstiger als API-Calls. Bei 2.000 Anfragen/Tag spart Self-Hosting €1.200–€3.600 pro Monat.
Verfügbarkeit: Kein Rate Limiting, keine Ausfälle beim API-Provider, keine Latenz über das Internet. Antwortzeiten von 20–50 ms statt 500–2.000 ms.
Installation: Ein Befehl
Ollama installiert sich auf Ubuntu 22.04/24.04 mit einem einzigen Befehl. Die Software erkennt automatisch, ob eine NVIDIA GPU vorhanden ist, und konfiguriert CUDA.
Voraussetzungen: Ubuntu 22.04+, mindestens 16 GB RAM, optional NVIDIA GPU mit CUDA-Treibern.
Nach der Installation ist Ollama als Systemdienst aktiv und startet automatisch beim Serverstart. Die API läuft auf Port 11434.
Modell laden und testen
Ollama verwaltet Modelle wie Docker Images. Ein Befehl lädt das Modell, dekomprimiert es und macht es startbereit.
# Ollama Modell-Empfehlungen für den Mittelstand
modelle:
llama3_1_8b:
name: "llama3.1:8b"
groesse_gb: 4.7
ram_minimum_gb: 8
gpu_vram_minimum_gb: 6
geschwindigkeit_tokens_s_gpu: 80
geschwindigkeit_tokens_s_cpu: 12
qualitaet_deutsch: "Gut für einfache Aufgaben"
use_cases: "Klassifikation, Zusammenfassung, Q&A"
llama3_1_70b:
name: "llama3.1:70b"
groesse_gb: 40
ram_minimum_gb: 48
gpu_vram_minimum_gb: 48
geschwindigkeit_tokens_s_gpu: 25
qualitaet_deutsch: "Sehr gut, nahe GPT-4o"
use_cases: "Komplexe Analyse, Textgenerierung, Coding"
mistral_7b:
name: "mistral:7b"
groesse_gb: 4.1
ram_minimum_gb: 8
gpu_vram_minimum_gb: 6
geschwindigkeit_tokens_s_gpu: 90
qualitaet_deutsch: "Gut, schnell"
use_cases: "Chat, einfache Texte, Übersetzung"
gemma2_27b:
name: "gemma2:27b"
groesse_gb: 16
ram_minimum_gb: 24
gpu_vram_minimum_gb: 24
geschwindigkeit_tokens_s_gpu: 40
qualitaet_deutsch: "Sehr gut"
use_cases: "Analyse, Zusammenfassung, RAG"
Hardware-Empfehlungen
| Szenario | Hardware | Kosten | Modelle |
|---|---|---|---|
| Einstieg (CPU) | 16 GB RAM, 8 Kerne | €200/Monat Cloud | 8B Modelle, langsam |
| Standard (GPU) | NVIDIA T4 16 GB | €180/Monat Cloud | 8B schnell, 13B möglich |
| Performance | NVIDIA A10 24 GB | €350/Monat Cloud | 27B Modelle flüssig |
| Enterprise | NVIDIA A100 80 GB | €1.200/Monat Cloud | 70B Modelle |
| On-Premise | Server + NVIDIA A10 | €6.500 einmalig | Break-even nach 18 Monaten |
Für den Einstieg empfiehlt sich eine Cloud-GPU (T4 oder A10). On-Premise lohnt sich ab €350/Monat Cloud-Kosten. Die Budgetplanung für KI hilft beim Break-even-Vergleich.
OpenAI-kompatible API
Ollama bietet eine OpenAI-kompatible API. Bestehende Anwendungen, die mit der OpenAI-API kommunizieren, brauchen nur die Base-URL zu ändern: Von api.openai.com auf server-ip:11434. Kein Code-Umbau nötig.
Das ermöglicht einen schrittweisen Übergang: Entwicklung mit OpenAI API, Produktion mit Ollama. Oder hybride Setups: Einfache Anfragen lokal, komplexe an GPT-4o. Ein KI-Gateway verteilt die Anfragen automatisch.
Produktionsbetrieb: Was zu beachten ist
Ollama ist für den Einstieg und Entwicklung gedacht. Für den Produktionsbetrieb mit hoher Last empfehlen sich zusätzliche Maßnahmen:
Reverse Proxy: Nginx oder Traefik vor Ollama für HTTPS, Authentifizierung und Rate Limiting.
Monitoring: Prometheus-Exporter für GPU-Auslastung, Request-Latenz und Queue-Länge. Alert bei GPU-Temperatur über 85 °C oder Queue-Länge über 50.
Sicherheit: API-Key-Authentifizierung einrichten. Ollama standardmäßig nur auf localhost binden, nicht auf 0.0.0.0. Zugriff nur über VPN oder privates Netzwerk.
Backup: Modelle und Konfiguration sichern. Modelfile-Definitionen versionieren (Git).
Kostenvergleich: Lokal vs. API
| Nutzung | OpenAI GPT-4o | Ollama Llama 3.1 70B |
|---|---|---|
| 100 Anfragen/Tag | €180/Monat | €1.200/Monat (Server) |
| 500 Anfragen/Tag | €900/Monat | €1.200/Monat |
| 2.000 Anfragen/Tag | €3.600/Monat | €1.200/Monat |
| 5.000 Anfragen/Tag | €9.000/Monat | €1.200/Monat |
Break-even: 600 Anfragen/Tag. Darunter ist die API günstiger. Darüber spart Self-Hosting linear. Bei 2.000 Anfragen/Tag: €2.400/Monat gespart = €28.800/Jahr. Der ROI-Rechner kann Self-Hosting vs. API vergleichen.
Integration mit RAG und Chatbots
Ollama lässt sich nahtlos in RAG-Pipelines einbinden:
- LangChain/LlamaIndex: Native Ollama-Integration, 3 Zeilen Python-Code
- Open WebUI: Web-Oberfläche für Chat-Anwendungen, Docker-Installation
- Dify/Flowise: Low-Code-Builder für KI-Workflows
Ein typischer Mittelstands-Chatbot: Ollama für die LLM-Inferenz, Qdrant für die Vektordatenbank, Open WebUI für die Benutzeroberfläche. Gesamtkosten: €200–€400/Monat. Der KI-Leitfaden beschreibt RAG-Architekturen im Detail.
Häufige Fragen
Wie gut ist Llama 3.1 auf Deutsch?
Llama 3.1 8B: Ausreichend für Klassifikation und einfache Q&A. Llama 3.1 70B: Sehr gut, 92–96 % der GPT-4o-Qualität bei den meisten Mittelstands-Tasks.
Brauche ich zwingend eine GPU?
Nein. Ollama läuft auch auf CPU. Aber: 8B-Modelle auf CPU generieren 10–15 Token/Sekunde (akzeptabel für Batch). 70B auf CPU: Zu langsam für interaktive Nutzung.
Kann ich mehrere Modelle gleichzeitig laden?
Ja. Ollama lädt Modelle bei Bedarf und hält sie im RAM/VRAM. Bei ausreichend Speicher laufen mehrere Modelle parallel. Bei Speichermangel wird das am längsten ungenutzte Modell entladen.
Wie aktualisiere ich Ollama und Modelle?
Ollama: Update über den gleichen Install-Befehl. Modelle: Neues Pull lädt die aktuellste Version. Downtrime: Unter 1 Minute.
Ist Ollama produktionsreif?
Für bis zu 50 gleichzeitige Nutzer ja. Für höhere Last empfiehlt sich vLLM oder TGI mit besserer Batch-Verarbeitung und Scheduling. Ollama ist der ideale Einstieg, vLLM das Upgrade für Skalierung.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Ollama mit GPU: CUDA-Setup auf Ubuntu Server
Ollama mit NVIDIA GPU und CUDA auf Ubuntu einrichten: 8x schneller als CPU. Anleitung für CUDA-Treiber, VRAM-Optimierung und Produktiv-Betrieb.
Air-Gapped KI: LLM ohne Internet im Werk
LLMs komplett offline betreiben: Air-Gapped-Installation von Llama 3.3 ohne Internet. Für KRITIS und Produktion. Setup in 4 Stunden, 0 € API-Kosten.
Ollama Cluster: Mehrere Server load-balancen
Ollama Cluster mit Load Balancing: 200+ gleichzeitige Nutzer, automatisches Failover und horizontale Skalierung. Nginx-Setup für den Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)