// ActionNote
Vier Layer und ein Cache
Wie ein 4-Layer-Kontextmodell und Prompt Caching zusammenspielen: weniger GPU-Last, fokussiertere Ergebnisse, und warum ich gestern ein Genie war.
Veröffentlicht: 11. Juni 2026 · Holger Theymann
Ich wollte den Kontext optimieren und dachte, ich bin ach so schlau.
Die Idee: Ich unterteile den Kontext in vier Layer, nach der Frage, wie häufig sich Informationen zwischen zwei Prompts eines Projekts überhaupt verändern.
Layer 1
Layer 1 enthält vollkommen statische Basisinformationen: Projektziele, Rahmenbedingungen, Prinzipien, grundlegende Entscheidungen zu Crates, Entwicklungsmethode, Tools. Das steht einmal fest und ändert sich praktisch nie.
Layer 2
Layer 2 fasst Daten, die sich selten ändern: Architektur, Verzeichnisstruktur, Roadmap, SPECs. Stabil über Wochen, aber nicht unveränderlich.
Layer 3
Layer 3 ist das Lebendige: die Code-Dateien, an denen wir gerade arbeiten, eine Zusammenfassung der History der letzten Änderungen und Fehler, aktuelle Bugs, Korrekturen durch mich. Das wandelt sich von Prompt zu Prompt.
Layer 4
Und als Sahnehäubchen das Layer 4, in dem der aktuelle Prompt lebt, inklusive der RAG-Anreicherungen zu genau der aktuellen Fragestellung.
Durch diese Schichtung wollte ich die Vorbereitungszeit für die Prompt-Erstellung verbessern, Elemente aus dem Kontext entfernen, die für die Bearbeitung des aktuellen Prompts schlicht unnötig sind, und mit optimalem Fokus arbeiten. Weniger Context Dilution , bessere Ergebnisse, kleinere Token-Kosten. Gute Idee.
// Ich dachte, ich wäre der King im Ring, und meine Genialität würde höchstens noch durch mein gutes Aussehen übertroffen. Diese Überzeugung hätte spätestens beim nächsten Blick in den Spiegel ins Wanken geraten können.
Dann habe ich von Prompt Caching gelesen und war begeistert. Da hatte jemand ein Fundament für meine geniale Idee geliefert, das ich nicht ignorieren konnte.
Das LLM kann den Anfang eines Prompts in seiner mathematischen Repräsentation im VRAM der GPU stehen lassen und beim nächsten Prompt wiederverwenden. Wenn ich meine Layer 1 bis 3 unverändert habe und sich nur die konkrete Aufgabe ändert: keine erneute Übertragung, keine erneute Berechnung, kein erneutes Reinstopfen in den GPU-Speicher. Ich spare einen Haufen Arbeit für die Grafikkarte, was mir den Glutofen neben dem Schreibtisch ein bisschen abkühlt, Zeit einspart, Energie einspart, und das ohne auch nur eine Spur an Qualität einzubüßen.
Im Gegenteil. Das Layer-System und die Kontext-Optimierung sorgen für fokussiertere Ergebnisse, weil das Modell nicht mit veraltetem oder irrelevantem Ballast belastet wird. Und Prompt Caching macht die ganze Sache auch noch günstiger.
Gestern bin ich mit einem breiten Grinsen ins Bett gegangen.
Das war gestern. Heute ärgert mich Claude wieder mit völlig unmöglichen Logiklücken, dass ich denke, ich rede mit einem dementen Vierjährigen. Aber das ist nicht schlimm. Der Gedanke an gestern rettet mich durch die etwas zermürbenderen Momente der Softwareentwicklung mit KI.
// Häufige Fragen
Was ist der Unterschied zwischen Prompt Caching und normalem Kontext-Fenster?
Funktioniert das bei jedem LLM-Provider?
Lohnt sich das Layer-System auch ohne Prompt Caching?
// Quellen
- Anthropic: Prompt Caching: Anthropic Docs [documentation]
- Vaswani et al.: Attention Is All You Need . arXiv (2017) [whitepaper]