Published on

Ollama auf Ubuntu: LLM lokal in 15 Minuten

Authors

TL;DR

Ollama macht die Installation lokaler LLMs auf Ubuntu so einfach wie apt install. Ein Befehl installiert die Software, ein zweiter lädt das Modell. Llama 3.1 8B läuft auf einem €200-Server mit 16 GB RAM. Llama 3.1 70B braucht eine GPU mit 48 GB VRAM. Keine API-Kosten, keine Daten an Dritte, volle DSGVO-Kontrolle.


Warum ein lokales LLM?

Drei Gründe, warum Mittelständler LLMs lokal betreiben:

Datenschutz: Keine Kundendaten, Verträge oder Mitarbeiterdaten an OpenAI oder Google. Alles bleibt im Unternehmensnetzwerk.

Kosten: Ab 500 LLM-Anfragen pro Tag ist ein eigener Server günstiger als API-Calls. Bei 2.000 Anfragen/Tag spart Self-Hosting €1.200–€3.600 pro Monat.

Verfügbarkeit: Kein Rate Limiting, keine Ausfälle beim API-Provider, keine Latenz über das Internet. Antwortzeiten von 20–50 ms statt 500–2.000 ms.

Installation: Ein Befehl

Ollama installiert sich auf Ubuntu 22.04/24.04 mit einem einzigen Befehl. Die Software erkennt automatisch, ob eine NVIDIA GPU vorhanden ist, und konfiguriert CUDA.

Voraussetzungen: Ubuntu 22.04+, mindestens 16 GB RAM, optional NVIDIA GPU mit CUDA-Treibern.

Nach der Installation ist Ollama als Systemdienst aktiv und startet automatisch beim Serverstart. Die API läuft auf Port 11434.

Modell laden und testen

Ollama verwaltet Modelle wie Docker Images. Ein Befehl lädt das Modell, dekomprimiert es und macht es startbereit.

# Ollama Modell-Empfehlungen für den Mittelstand
modelle:
  llama3_1_8b:
    name: "llama3.1:8b"
    groesse_gb: 4.7
    ram_minimum_gb: 8
    gpu_vram_minimum_gb: 6
    geschwindigkeit_tokens_s_gpu: 80
    geschwindigkeit_tokens_s_cpu: 12
    qualitaet_deutsch: "Gut für einfache Aufgaben"
    use_cases: "Klassifikation, Zusammenfassung, Q&A"
  llama3_1_70b:
    name: "llama3.1:70b"
    groesse_gb: 40
    ram_minimum_gb: 48
    gpu_vram_minimum_gb: 48
    geschwindigkeit_tokens_s_gpu: 25
    qualitaet_deutsch: "Sehr gut, nahe GPT-4o"
    use_cases: "Komplexe Analyse, Textgenerierung, Coding"
  mistral_7b:
    name: "mistral:7b"
    groesse_gb: 4.1
    ram_minimum_gb: 8
    gpu_vram_minimum_gb: 6
    geschwindigkeit_tokens_s_gpu: 90
    qualitaet_deutsch: "Gut, schnell"
    use_cases: "Chat, einfache Texte, Übersetzung"
  gemma2_27b:
    name: "gemma2:27b"
    groesse_gb: 16
    ram_minimum_gb: 24
    gpu_vram_minimum_gb: 24
    geschwindigkeit_tokens_s_gpu: 40
    qualitaet_deutsch: "Sehr gut"
    use_cases: "Analyse, Zusammenfassung, RAG"

Hardware-Empfehlungen

SzenarioHardwareKostenModelle
Einstieg (CPU)16 GB RAM, 8 Kerne€200/Monat Cloud8B Modelle, langsam
Standard (GPU)NVIDIA T4 16 GB€180/Monat Cloud8B schnell, 13B möglich
PerformanceNVIDIA A10 24 GB€350/Monat Cloud27B Modelle flüssig
EnterpriseNVIDIA A100 80 GB€1.200/Monat Cloud70B Modelle
On-PremiseServer + NVIDIA A10€6.500 einmaligBreak-even nach 18 Monaten

Für den Einstieg empfiehlt sich eine Cloud-GPU (T4 oder A10). On-Premise lohnt sich ab €350/Monat Cloud-Kosten. Die Budgetplanung für KI hilft beim Break-even-Vergleich.

OpenAI-kompatible API

Ollama bietet eine OpenAI-kompatible API. Bestehende Anwendungen, die mit der OpenAI-API kommunizieren, brauchen nur die Base-URL zu ändern: Von api.openai.com auf server-ip:11434. Kein Code-Umbau nötig.

Das ermöglicht einen schrittweisen Übergang: Entwicklung mit OpenAI API, Produktion mit Ollama. Oder hybride Setups: Einfache Anfragen lokal, komplexe an GPT-4o. Ein KI-Gateway verteilt die Anfragen automatisch.

Produktionsbetrieb: Was zu beachten ist

Ollama ist für den Einstieg und Entwicklung gedacht. Für den Produktionsbetrieb mit hoher Last empfehlen sich zusätzliche Maßnahmen:

Reverse Proxy: Nginx oder Traefik vor Ollama für HTTPS, Authentifizierung und Rate Limiting.

Monitoring: Prometheus-Exporter für GPU-Auslastung, Request-Latenz und Queue-Länge. Alert bei GPU-Temperatur über 85 °C oder Queue-Länge über 50.

Sicherheit: API-Key-Authentifizierung einrichten. Ollama standardmäßig nur auf localhost binden, nicht auf 0.0.0.0. Zugriff nur über VPN oder privates Netzwerk.

Backup: Modelle und Konfiguration sichern. Modelfile-Definitionen versionieren (Git).

Kostenvergleich: Lokal vs. API

NutzungOpenAI GPT-4oOllama Llama 3.1 70B
100 Anfragen/Tag€180/Monat€1.200/Monat (Server)
500 Anfragen/Tag€900/Monat€1.200/Monat
2.000 Anfragen/Tag€3.600/Monat€1.200/Monat
5.000 Anfragen/Tag€9.000/Monat€1.200/Monat

Break-even: 600 Anfragen/Tag. Darunter ist die API günstiger. Darüber spart Self-Hosting linear. Bei 2.000 Anfragen/Tag: €2.400/Monat gespart = €28.800/Jahr. Der ROI-Rechner kann Self-Hosting vs. API vergleichen.

Integration mit RAG und Chatbots

Ollama lässt sich nahtlos in RAG-Pipelines einbinden:

  • LangChain/LlamaIndex: Native Ollama-Integration, 3 Zeilen Python-Code
  • Open WebUI: Web-Oberfläche für Chat-Anwendungen, Docker-Installation
  • Dify/Flowise: Low-Code-Builder für KI-Workflows

Ein typischer Mittelstands-Chatbot: Ollama für die LLM-Inferenz, Qdrant für die Vektordatenbank, Open WebUI für die Benutzeroberfläche. Gesamtkosten: €200–€400/Monat. Der KI-Leitfaden beschreibt RAG-Architekturen im Detail.

Häufige Fragen

Wie gut ist Llama 3.1 auf Deutsch?

Llama 3.1 8B: Ausreichend für Klassifikation und einfache Q&A. Llama 3.1 70B: Sehr gut, 92–96 % der GPT-4o-Qualität bei den meisten Mittelstands-Tasks.

Brauche ich zwingend eine GPU?

Nein. Ollama läuft auch auf CPU. Aber: 8B-Modelle auf CPU generieren 10–15 Token/Sekunde (akzeptabel für Batch). 70B auf CPU: Zu langsam für interaktive Nutzung.

Kann ich mehrere Modelle gleichzeitig laden?

Ja. Ollama lädt Modelle bei Bedarf und hält sie im RAM/VRAM. Bei ausreichend Speicher laufen mehrere Modelle parallel. Bei Speichermangel wird das am längsten ungenutzte Modell entladen.

Wie aktualisiere ich Ollama und Modelle?

Ollama: Update über den gleichen Install-Befehl. Modelle: Neues Pull lädt die aktuellste Version. Downtrime: Unter 1 Minute.

Ist Ollama produktionsreif?

Für bis zu 50 gleichzeitige Nutzer ja. Für höhere Last empfiehlt sich vLLM oder TGI mit besserer Batch-Verarbeitung und Scheduling. Ollama ist der ideale Einstieg, vLLM das Upgrade für Skalierung.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)