Ollama Modelfile erstellen — eigene KI-Modelle für den Mittelstand konfigurieren

TL;DR

Mit einem Ollama Modelfile definieren Sie System-Prompt, Temperatur und Kontextlänge für ein lokales LLM in einer einzigen Textdatei. Per ollama create wird daraus ein maßgeschneidertes Modell — ohne Cloud, ohne Programmierkenntnisse. Der gesamte Prozess dauert unter 5 Minuten und läuft DSGVO-konform auf eigener Hardware.

Was ist ein Modelfile — und warum brauchen Sie eins?

Ollama liefert Modelle wie Llama 3.3 oder Mistral mit generischen Standardeinstellungen aus. Für den Einsatz im Unternehmen reicht das selten. Ein Kundenservice-Bot braucht andere Anweisungen als ein Assistent für technische Dokumentation.

Das Modelfile ist Ollamas Konfigurationsdatei. Stellen Sie es sich wie eine Dockerfile vor — nur für KI-Modelle statt Container. In wenigen Zeilen legen Sie fest:

Welches Basismodell verwendet wird
Welchen System-Prompt das Modell erhält
Welche Parameter (Temperatur, Top-K, Kontextlänge) gelten

Falls Sie Ollama noch nicht installiert haben: Unsere Ollama-Installationsanleitung für Ubuntu führt Sie in 10 Minuten durch das Setup.

Modelfile-Syntax im Detail

Die Syntax ist bewusst einfach gehalten. Jede Anweisung steht in einer eigenen Zeile:

# Basis-Modelfile für Ollama
FROM llama3.3:8b

# System-Prompt: Definiert Rolle und Verhalten
SYSTEM """
Du bist ein technischer Assistent für ein deutsches Maschinenbau-Unternehmen.
Antworte immer auf Deutsch. Verwende Fachbegriffe aus dem Maschinenbau.
Wenn du dir bei einer Antwort unsicher bist, sage das klar.
"""

# Parameter anpassen
PARAMETER temperature 0.3
PARAMETER top_k 40
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

Die wichtigsten Anweisungen im Überblick:

FROM — Pflichtfeld. Gibt das Basismodell an. Entweder ein Modell aus der Ollama-Bibliothek (llama3.3:8b, mistral:7b) oder ein lokaler GGUF-Pfad.

SYSTEM — Der System-Prompt. Hier definieren Sie Rolle, Sprache, Tonalität und Einschränkungen. Dreifache Anführungszeichen erlauben mehrzeilige Prompts.

PARAMETER — Steuert das Verhalten bei der Textgenerierung. Die drei relevantesten Parameter für den Unternehmenseinsatz:

Parameter	Wirkung	Empfehlung Kundenservice	Empfehlung Doku
`temperature`	Kreativität (0.0–2.0)	0.2–0.4	0.1–0.3
`num_ctx`	Kontextfenster in Tokens	4096	8192
`top_k`	Einschränkung der Token-Auswahl	40	20

Niedrige Temperatur bedeutet konsistentere, aber weniger kreative Antworten. Für geschäftskritische Anwendungen wie Kundenservice oder Qualitätsprüfung wollen Sie genau das.

Drei Praxisbeispiele für den Mittelstand

Kundenservice-Bot für den Großhandel

FROM llama3.3:8b

SYSTEM """
Du bist der KI-Assistent der Müller Großhandel GmbH.
Beantworte Kundenanfragen zu Bestellstatus, Lieferzeiten und Retouren.
Antworte immer auf Deutsch, höflich und präzise.
Nenne bei Lieferzeitfragen immer den Hinweis: Aktuelle Lieferzeiten unter 089-12345.
Erfinde KEINE Bestellnummern oder Tracking-Codes.
Bei Reklamationen: Leite an service@mueller-grosshandel.de weiter.
"""

PARAMETER temperature 0.2
PARAMETER num_ctx 4096
PARAMETER repeat_penalty 1.1

Warum temperature 0.2? Im Kundenservice darf das Modell nicht halluzinieren. Jede falsche Lieferzeit kostet Vertrauen. Wir empfehlen für den Einstieg Llama 3.3 8B — das Modell läuft auf einer NVIDIA T4 mit 16 GB VRAM flüssig und liefert für deutschsprachige Aufgaben sehr gute Ergebnisse.

Technische Dokumentation im Maschinenbau

FROM llama3.3:8b

SYSTEM """
Du bist ein Assistent für technische Dokumentation bei einem Maschinenbauer.
Formuliere Wartungsanleitungen und Fehlerbeschreibungen nach VDI-Richtlinien.
Verwende kurze, eindeutige Sätze. Vermeide Passivkonstruktionen.
Gib Maßeinheiten immer im SI-System an.
Strukturiere Antworten mit nummerierten Schritten.
"""

PARAMETER temperature 0.1
PARAMETER num_ctx 8192
PARAMETER top_k 20

Das größere Kontextfenster von 8192 Tokens ist hier bewusst gewählt. Technische Dokumentation referenziert oft längere Textpassagen — etwa eine komplette Wartungsanleitung, die als Kontext mitgegeben wird. Wenn Sie das Modell zusätzlich mit eigenen Dokumenten füttern wollen, lohnt sich ein Blick auf unsere RAG-Anleitung für private KI-Chatbots.

Qualitätskontrolle in der Fertigung

FROM mistral:7b

SYSTEM """
Du analysierst Prüfprotokolle aus der Qualitätskontrolle.
Identifiziere Abweichungen von Sollwerten und klassifiziere sie:
- KRITISCH: Abweichung > 5% vom Sollwert
- WARNUNG: Abweichung 2-5% vom Sollwert
- OK: Abweichung < 2% vom Sollwert
Gib bei jeder Analyse die betroffene Charge und das Prüfmerkmal an.
Antworte ausschließlich auf Deutsch.
"""

PARAMETER temperature 0.0
PARAMETER num_ctx 4096
PARAMETER top_p 0.5

Temperatur auf 0.0 — klingt extrem, ist aber für die Qualitätskontrolle genau richtig. Bei der Klassifizierung von Messwerten wollen Sie null Varianz in den Antworten.

Modell erstellen und testen

Speichern Sie Ihr Modelfile (ohne Dateiendung) und führen Sie den create-Befehl aus:

# Modelfile erstellen (z.B. im Home-Verzeichnis)
nano ~/Modelfile-kundenservice

# Modell aus dem Modelfile erzeugen
ollama create kundenservice-bot -f ~/Modelfile-kundenservice

# Modell testen
ollama run kundenservice-bot "Was sind die Lieferzeiten für Bestellung 4711?"

# Alle lokalen Modelle anzeigen
ollama list

Der create-Befehl dauert wenige Sekunden — das Basismodell wird nicht kopiert, sondern referenziert. Sie können beliebig viele Varianten erstellen, ohne zusätzlichen Speicherplatz für das Grundmodell zu verbrauchen.

Wollen Sie Ihrem Team eine Web-Oberfläche für die Modelle bereitstellen? Open WebUI lässt sich per Docker in 5 Minuten aufsetzen und zeigt alle mit ollama create erstellten Modelle automatisch an.

Typische Fehler und wie Sie sie vermeiden

System-Prompt zu vage. "Sei hilfreich und antworte gut" bringt nichts. Definieren Sie Rolle, Sprache, Format und Grenzen explizit. Je konkreter der Prompt, desto zuverlässiger das Verhalten.

Zu hohe Temperatur für geschäftskritische Aufgaben. Alles über 0.5 führt bei faktischen Fragen zu inkonsistenten Antworten. Wir raten für den produktiven Einsatz im Mittelstand davon ab, die Temperatur über 0.4 zu setzen.

Kontextfenster zu klein. Wenn das Modell mitten in der Antwort abbricht oder den Anfang Ihrer Eingabe "vergisst", erhöhen Sie num_ctx. Beachten Sie: Mehr Kontext braucht mehr VRAM. Bei 8B-Modellen reichen 8192 Tokens für die meisten Anwendungsfälle.

TEMPLATE-Anweisung vergessen. Für fortgeschrittene Anpassungen (z.B. eigene Chat-Formate) gibt es die TEMPLATE-Anweisung. Für den Einstieg ist sie nicht nötig — der Standard-Template des Basismodells funktioniert in 90% der Fälle.

Häufig gestellte Fragen

Kann ich ein bestehendes Modelfile nachträglich ändern? Ja. Bearbeiten Sie die Datei und führen Sie ollama create erneut mit demselben Modellnamen aus. Das alte Modell wird überschrieben. Laufende Sitzungen nutzen weiterhin die vorherige Version, bis Sie sie neu starten.

Was kostet der Betrieb eines eigenen Ollama-Modells? Nur die Hardware. Ein gebrauchter Server mit NVIDIA T4 (16 GB VRAM) kostet ab 1.500 EUR. Die laufenden Stromkosten liegen bei ca. 30-50 EUR pro Monat. Ollama selbst ist Open Source und kostenlos. Im Vergleich: GPT-4-API-Kosten summieren sich bei 10.000 Anfragen pro Tag schnell auf 2.000-5.000 EUR monatlich.

Welches Basismodell eignet sich am besten für deutsche Texte? Llama 3.3 8B liefert aktuell das beste Verhältnis aus Qualität und Ressourcenbedarf für deutschsprachige Aufgaben. Mistral 7B ist eine gute Alternative mit etwas geringerem VRAM-Bedarf. Für komplexe Aufgaben wie juristische Texte empfehlen wir Llama 3.3 70B — dafür brauchen Sie allerdings mindestens 48 GB VRAM.

Kann ich GGUF-Modelle von Hugging Face als Basis verwenden? Ja. Statt eines Modellnamens geben Sie in der FROM-Zeile den Pfad zur GGUF-Datei an: FROM /pfad/zum/modell.gguf. So können Sie auch feingetunete Community-Modelle nutzen, die speziell für Deutsch optimiert wurden.

Wie sichere ich meine Modelfiles für das Team? Versionieren Sie Modelfiles in Git — genau wie Dockerfiles oder Infrastruktur-Code. So ist jede Änderung am System-Prompt nachvollziehbar. Bei regulierten Branchen (Pharma, Automotive) ist diese Nachvollziehbarkeit ohnehin Pflicht.

Fazit und nächster Schritt

Ein Ollama Modelfile erstellen Sie in unter 5 Minuten. Der eigentliche Aufwand steckt im System-Prompt — nehmen Sie sich dafür Zeit. Testen Sie mit realen Anfragen aus Ihrem Tagesgeschäft, nicht mit generischen Beispielen.

Starten Sie mit einem der drei Praxisbeispiele oben, passen Sie den System-Prompt an Ihren Anwendungsfall an und rollen Sie das Modell über Open WebUI an Ihr Team aus.

Ollama Modelfile: Eigenes KI-Modell erstellen