Was ist der Unterschied zwischen Prompt Caching und normalem Kontext-Fenster?

Das Kontext-Fenster ist der Platz, den ein Prompt belegen darf. Prompt Caching ist eine Optimierung auf Infrastruktur-Ebene: der Anfang eines Prompts bleibt als KV-Cache im VRAM stehen und wird beim nächsten Request wiederverwendet, statt neu berechnet zu werden. Das Fenster bleibt gleich, aber die Rechenarbeit fällt weg.

Funktioniert das bei jedem LLM-Provider?

Nein. Anthropic (Claude) und OpenAI bieten Prompt Caching als explizite API-Funktion an, bei Anthropic mit cache_control-Markierungen im Prompt. Google nennt die Funktion Context Caching. Bei lokalen Modellen via Ollama oder llama.cpp ist KV-Caching ebenfalls möglich, aber ohne explizite API-Kontrolle.

Lohnt sich das Layer-System auch ohne Prompt Caching?

Ja. Schon ohne Caching verbessert die Trennung in statische und dynamische Kontextblöcke die Ergebnis-Qualität, weil das Modell nicht unnötig mit veralteten oder irrelevanten Informationen belastet wird. Prompt Caching ist das Sahnehäubchen, nicht die Grundvoraussetzung.

Vier Layer und ein Cache

Ich wollte den Kontext optimieren und dachte, ich bin ach so schlau.

Die Idee: Ich unterteile den Kontext in vier Layer, nach der Frage, wie häufig sich Informationen zwischen zwei Prompts eines Projekts überhaupt verändern.

Layer 1

Layer 1 enthält vollkommen statische Basisinformationen: Projektziele, Rahmenbedingungen, Prinzipien, grundlegende Entscheidungen zu Crates, Entwicklungsmethode, Tools. Das steht einmal fest und ändert sich praktisch nie.

Layer 2

Layer 2 fasst Daten, die sich selten ändern: Architektur, Verzeichnisstruktur, Roadmap, SPECs. Stabil über Wochen, aber nicht unveränderlich.

Layer 3

Layer 3 ist das Lebendige: die Code-Dateien, an denen wir gerade arbeiten, eine Zusammenfassung der History der letzten Änderungen und Fehler, aktuelle Bugs, Korrekturen durch mich. Das wandelt sich von Prompt zu Prompt.

Layer 4

Und als Sahnehäubchen das Layer 4, in dem der aktuelle Prompt lebt, inklusive der RAG-Anreicherungen zu genau der aktuellen Fragestellung.

Durch diese Schichtung wollte ich die Vorbereitungszeit für die Prompt-Erstellung verbessern, Elemente aus dem Kontext entfernen, die für die Bearbeitung des aktuellen Prompts schlicht unnötig sind, und mit optimalem Fokus arbeiten. Weniger Context Dilution, bessere Ergebnisse, kleinere Token-Kosten. Gute Idee.

// Ich dachte, ich wäre der King im Ring, und meine Genialität würde höchstens noch durch mein gutes Aussehen übertroffen. Diese Überzeugung hätte spätestens beim nächsten Blick in den Spiegel ins Wanken geraten können.

Dann habe ich von Prompt Caching gelesen und war begeistert. Da hatte jemand ein Fundament für meine geniale Idee geliefert, das ich nicht ignorieren konnte.

Das LLM kann den Anfang eines Prompts in seiner mathematischen Repräsentation im VRAM der GPU stehen lassen und beim nächsten Prompt wiederverwenden. Wenn ich meine Layer 1 bis 3 unverändert habe und sich nur die konkrete Aufgabe ändert: keine erneute Übertragung, keine erneute Berechnung, kein erneutes Reinstopfen in den GPU-Speicher. Ich spare einen Haufen Arbeit für die Grafikkarte, was mir den Glutofen neben dem Schreibtisch ein bisschen abkühlt, Zeit einspart, Energie einspart, und das ohne auch nur eine Spur an Qualität einzubüßen.

Im Gegenteil. Das Layer-System und die Kontext-Optimierung sorgen für fokussiertere Ergebnisse, weil das Modell nicht mit veraltetem oder irrelevantem Ballast belastet wird. Und Prompt Caching macht die ganze Sache auch noch günstiger.

Transformer-Modelle berechnen für jeden Token im Prompt sogenannte Key- und Value-Matrizen (daher KV-Cache). Diese Matrizen kodieren, was das Modell über den bisherigen Kontext "weiss". Normalerweise werden sie bei jedem neuen Request neu berechnet, auch wenn sich der Anfang des Prompts nicht verändert hat.

Prompt Caching ändert das: Der Provider hält die KV-Matrizen für einen definierten Prompt-Prefix im Speicher und gibt sie beim nächsten Request zurück, statt sie neu zu berechnen. Bei Anthropic markiert man die gewünschten Cache-Checkpoints explizit mit cache_control: {"type": "ephemeral"}. Der Cache hat eine TTL von 5 Minuten.

Kosten: Ein Cache-Miss (erster Aufruf, Cache wird geschrieben) kostet 125 Prozent des normalen Input-Token-Preises. Ein Cache-Hit kostet 10 Prozent. Ab dem zweiten identischen Präfix spart man 90 Prozent der Rechenkosten für diesen Teil des Prompts.

Das Prinzip funktioniert genau dann optimal, wenn die statischen Teile des Prompts am Anfang stehen und die variablen Teile am Ende. Was exakt der Punkt ist, auf den das Layer-Modell von alleine hinläuft.

Weiterführend: Anthropic Prompt Caching Docs

Gestern bin ich mit einem breiten Grinsen ins Bett gegangen.

Das war gestern. Heute ärgert mich Claude wieder mit völlig unmöglichen Logiklücken, dass ich denke, ich rede mit einem dementen Vierjährigen. Aber das ist nicht schlimm. Der Gedanke an gestern rettet mich durch die etwas zermürbenderen Momente der Softwareentwicklung mit KI.