Context Engineering: Warum das Kontextfenster kein Gedächtnis ist

Das Kontextfenster eines Sprachmodells speichert nichts dauerhaft. Das Modell liest mit jeder Anfrage den gesamten bisherigen Verlauf neu, bis das Token-Limit erreicht ist. Context Engineering ist die Disziplin, diesen begrenzten Arbeitsbereich gezielt zu befüllen. Das Ziel ist, dem Modell die richtigen Informationen zur richtigen Zeit bereitzustellen, damit es komplexe Aufgaben zuverlässig abschließt.

Von Lennart Austen · v2.0 · Mai 2026

* * *

Warum Sprachmodelle ohne Kontext scheitern

Agenten scheitern bei mehrstufigen Aufgaben häufiger als erwartet, und der Grund liegt selten in der Intelligenz des Modells. Wenn das Kontextfenster durch irrelevante Zwischenergebnisse oder Logs überflutet wird, verdrängt dieser Lärm die ursprüngliche Instruktion. Das Modell dreht sich in Loops, wiederholt sinnlose Aktionen oder verliert schlicht das Ziel aus dem Blick. Das Kontextfenster ist dabei kein Gedächtnis. Mit jeder Anfrage liest das Modell den gesamten bisherigen Verlauf neu, ohne dauerhaft etwas zu speichern.

Für alle, die täglich mit LLMs arbeiten, ist das kein theoretisches Problem. Wer Prompts für komplexe Workflows schreibt, merkt schnell, dass ein präzise formulierter Prompt allein nicht ausreicht, wenn der Kontext drumherum unkontrolliert wächst. Genau hier setzt Context Engineering an, als Praxis, die über einzelne Prompt-Formulierungen hinausgeht und den gesamten Informationsfluss in den Griff nimmt.

* * *

Was ist Context Engineering?

Context Engineering bezeichnet die Disziplin, den richtigen Inhalt zur richtigen Zeit in das Kontextfenster eines Sprachmodells zu bringen, in der richtigen Form, Reihenfolge und mit dem richtigen Umfang. Anthropic beschreibt diesen Ansatz als gezielte Steuerung dessen, was ein Agent zu welchem Zeitpunkt sieht. Dabei ist das Kontextfenster kein dauerhaftes Gedächtnis, sondern verarbeitet bei jeder Anfrage nur die aktuell übergebenen Token. Langfristige Informationen erfordern externe Systeme.

Mehrere Begriffe grenzen daran an. Prompt Engineering beschreibt die Formulierung einzelner Anweisungen, während Retrieval Augmented Generation (RAG) externe Wissensspeicher dynamisch in den Kontext einbindet. Context Window Management beschreibt die technische Steuerung des Token-Budgets.

* * *

Wie das Kontextfenster wirklich funktioniert

Das Kontextfenster ist der einzige Arbeitsbereich, den ein Sprachmodell in einem Moment kennt. Jede Anfrage schickt den vollständigen bisherigen Chatverlauf erneut an das Modell, das dann alles von vorne liest. Überschreitet der kumulierte Text das Token-Limit, fallen die ältesten Inhalte aus dem Fenster. Das Modell greift auf keine gespeicherte Datenbank zurück und erinnert sich an nichts aus früheren Sitzungen.

Stateless-Architektur beginnt jede Anfrage neu

Diese Architektur nennt sich stateless. Jede Anfrage ist technisch eine neue Anfrage, die zufällig denselben Verlauf mitschleppt. Was wie Gedächtnis wirkt, ist in Wirklichkeit ein immer länger werdender Text, der bei jeder Nachricht neu verarbeitet wird. Langfristige Speicherung über Sitzungsgrenzen hinaus erfordert externe Systeme wie Datenbanken oder Retrieval Augmented Generation (RAG), die relevante Informationen gezielt zurück in den Kontext laden.

Context Rot verdrängt das ursprüngliche Ziel

Füllt sich das Kontextfenster mit irrelevanten Zwischenergebnissen, Fehlermeldungen oder redundanten Logs, entsteht Context Rot. Messungen von Chroma über 18 Sprachmodelle zeigen, dass die Antwortqualität schon unterhalb des Token-Limits sinkt, je mehr Ballast dazukommt. Die ursprüngliche Instruktion verliert an Gewicht, weil Modelle Informationen am Anfang und Ende des Kontexts stärker beachten als in der Mitte. Der Agent vergisst sein Ziel, nicht weil er es nicht versteht, sondern weil es im Rauschen untergeht. Das ist kein Intelligenzfehler, sondern ein Architekturproblem.

Context Engineering macht den Systemzustand explizit sichtbar. Es zeigt, was bisher passiert ist, wo im Prozess sich der Agent befindet und welche Entscheidungen bereits getroffen wurden. Strikte Relevanzfilterung ist dabei eine Grundvoraussetzung, keine optionale Optimierung. Nur Informationen, die für den nächsten Schritt tatsächlich relevant sind, gehören in das Fenster. Versionierte, gezielt steuerbare Prompt-Inhalte helfen dabei, genau diese Relevanzgrenze strukturiert zu ziehen.

* * *

6 Prinzipien für sauberes Context Engineering

Mehrstufige LLM-Workflows stehen und fallen mit der Frage, welche Informationen wann im Kontextfenster landen. Das Kontextfenster ist kein dauerhaftes Gedächtnis, sondern liest bei jeder Anfrage den gesamten bisherigen Verlauf neu ein. Wer das versteht, kann seinen Kontext gezielt steuern statt ihn unkontrolliert wachsen zu lassen.

Relevanzfilterung: Nur Informationen in den Kontext aufnehmen, die für den aktuellen Schritt direkt benötigt werden.
Zustandsdokumentation: Den aktuellen Prozessstand explizit im Kontext vermerken, damit das Modell weiß, wo es sich befindet.
Instruktionsverankerung: Die Kernanweisung regelmäßig im Kontextfenster wiederholen, damit sie nicht durch wachsenden Text verdrängt wird.
Externes Gedächtnis: Langfristige Informationen über RAG oder Datenbanken nachladen statt dauerhaft im Fenster zu halten.
Verdichtung: Lange Verläufe regelmäßig zu kompakten Zusammenfassungen verdichten, damit der Kern erhalten bleibt und Ballast wegfällt.
Schrittweise Verkettung: Komplexe Aufgaben in klar abgegrenzte Teilschritte aufteilen, die jeweils mit bereinigtem Kontext starten.

Diese Prinzipien lassen sich direkt in die Prompt-Struktur und in mehrstufige Flows übersetzen, bei denen jeder Schritt mit kontrolliertem Kontext startet.

* * *

Context Engineering vs. Prompt Engineering

Beide Begriffe werden oft synonym verwendet, beschreiben aber unterschiedliche Ebenen der Arbeit mit Sprachmodellen. Der Unterschied wird besonders relevant, sobald Aufgaben mehrstufig werden und ein einzelner Prompt nicht mehr ausreicht.

Prompt Engineering konzentriert sich auf die Formulierung einzelner Anweisungen. Wie wird eine Frage gestellt, welche Rolle bekommt das Modell, wie präzise ist die Aufgabenbeschreibung? Das Ergebnis ist ein einzelner, optimierter Prompt. Prompt Engineering betrachtet den Moment der Eingabe, nicht den Gesamtzustand des Gesprächs. Für einmalige, klar abgegrenzte Aufgaben ist das vollständig ausreichend. Wer einzelne Prompts verwaltet und versioniert, arbeitet genau auf dieser Ebene.

Context Engineering denkt größer. Hier geht es darum, welche Informationen überhaupt im Kontextfenster landen, in welcher Reihenfolge und wann sie wieder entfernt werden. Das Kontextfenster ist dabei kein dauerhaftes Gedächtnis. Mit jeder Nachricht liest das Modell den gesamten bisherigen Verlauf neu, ohne etwas davon zu speichern. Langfristige Kontinuität erfordert externe Systeme wie Datenbanken oder Retrieval-Mechanismen. Context Engineering entscheidet, welche dieser Informationen zu welchem Zeitpunkt sichtbar sind, und steuert damit die Qualität mehrstufiger Abläufe aktiv.

Wenn eine Aufgabe in einem einzigen Austausch lösbar ist, reicht Prompt Engineering vollständig aus. Sobald Workflows mehrere Schritte, externe Daten oder Agenten-Logik umfassen, wird Context Engineering zur entscheidenden Disziplin, die darüber bestimmt, ob das Modell sein Ziel behält oder verliert.

* * *

Context Engineering in der Praxis umsetzen

Diese Schritte setzen voraus, dass du bereits mit einem LLM wie ChatGPT, Claude oder einem ähnlichen Modell arbeitest und wiederkehrende Aufgaben strukturieren möchtest. Technische Vorkenntnisse sind dafür nicht nötig.

Schritt 1: Aufgabe in Teilschritte zerlegen

Schreibe die Gesamtaufgabe auf und identifiziere, welche Teilschritte logisch aufeinander folgen. Jeder Schritt sollte eine klar abgrenzbare Ausgabe haben, etwa eine Recherche, eine Gliederung oder einen Entwurf. Diese Zerlegung verhindert, dass alle Informationen gleichzeitig im Kontextfenster landen und sich gegenseitig verdrängen.

Schritt 2: Prompt-Vorlagen mit Variablen erstellen

Formuliere für jeden Teilschritt eine eigene Vorlage mit Platzhaltern für variable Inhalte. Statt jedes Mal denselben Prompt neu zu schreiben, füllst du nur die relevanten Felder aus. Vorlagen mit Variablen ersetzen diese Platzhalter automatisch, bevor der Prompt an das Modell geht. So bleibt jede Vorlage schlank und auf den jeweiligen Schritt fokussiert.

Schritt 3: Kontext aktiv filtern

Entscheide vor jedem Schritt, welche Informationen aus dem vorherigen Schritt tatsächlich relevant sind. Das Modell verarbeitet mit jeder Anfrage den gesamten bisherigen Inhalt neu, weshalb überflüssige Informationen die Qualität der Ausgabe senken. Nur was der nächste Schritt direkt braucht, gehört in das Fenster. Diese Filterentscheidung ist der Kern von Context Engineering und lässt sich als fester Bestandteil in Vorlagen einbauen.

Schritt 4: Flows als Ablaufstruktur definieren

Verkette die einzelnen Prompt-Vorlagen zu einem Flow, einer vordefinierten Abfolge von Schritten. Dieser Flow fasst mehrere Prompts zu einem mehrstufigen Ablauf zusammen, den du mit einem Klick startest. Jeder Schritt wird manuell bestätigt, sodass du den Kontext zwischen den Schritten prüfen und anpassen kannst.

Schritt 5: Versionen sichern und iterieren

Speichere jeden Bearbeitungsstand deiner Vorlagen. Wenn ein Flow nicht das gewünschte Ergebnis liefert, hilft es zu sehen, welche Prompt-Version zuvor besser funktioniert hat. Eine automatische Versionierung sichert jeden Speicherstand und stellt frühere Versionen wieder her, ohne dass Arbeit verloren geht.

Wer diese fünf Schritte konsequent umsetzt, merkt schnell, dass die Qualität der Ausgaben weniger von der Formulierung einzelner Sätze abhängt als von der Struktur des gesamten Ablaufs.

* * *

Häufige Fragen zu Context Engineering

Warum erinnert sich ein Sprachmodell nicht an frühere Gespräche?

Sprachmodelle arbeiten zustandslos. Das Modell liest mit jeder Nachricht den gesamten bisherigen Verlauf neu, greift aber auf keine gespeicherte Datenbank zurück. Was wie Erinnerung wirkt, ist der mitgesendete Chatverlauf. Sobald eine neue Sitzung beginnt oder das Token-Limit überschritten wird, sind frühere Inhalte nicht mehr zugänglich. Mit strukturierten Vorlagen lässt sich genau dieser Kontext gezielt vorbereiten und wiederverwenden.

Was passiert, wenn das Token-Limit eines Modells überschritten wird?

Überschreitet der kumulierte Text das Token-Limit, fallen die ältesten Inhalte aus dem Fenster. Die Instruktionen vom Anfang eines langen Gesprächs können dadurch verloren gehen. Das Modell arbeitet dann nur noch mit dem verbleibenden Kontext weiter, ohne Kenntnis der ursprünglichen Anweisung. Aktives Kontext-Management bei langen Workflows verhindert genau diesen Informationsverlust.

Wie unterscheidet sich RAG von Context Engineering?

Retrieval Augmented Generation (RAG) ist eine Technik, die externe Wissensspeicher dynamisch in das Kontextfenster lädt. Context Engineering ist die übergeordnete Disziplin, die entscheidet, was überhaupt in das Fenster kommt, in welcher Form und zu welchem Zeitpunkt. RAG ist damit ein Werkzeug innerhalb des Context Engineerings, kein Ersatz dafür.

Wie funktioniert Claude Memory im Zusammenhang mit dem Kontextfenster?

Claude Memory bezeichnet Mechanismen, mit denen Claude-Modelle Informationen über Sitzungsgrenzen hinweg verfügbar halten. Technisch geschieht das über externe Speichersysteme, nicht über das Kontextfenster selbst. Das Kontextfenster bleibt weiterhin der einzige aktive Arbeitsbereich des Modells. Context Engineering bestimmt, welche gespeicherten Informationen wann zurück in dieses Fenster geladen werden.

Wann lohnt sich Context Engineering gegenüber einfachem Prompt Engineering?

Sobald eine Aufgabe mehr als einen Austausch mit dem Modell erfordert, wird Context Engineering relevant. Für einfache, einmalige Anfragen reicht ein gut formulierter Prompt vollständig aus. Sobald Workflows mehrere Schritte, Agenten-Architekturen oder externe Datenquellen umfassen, entscheidet die Qualität des Kontext-Managements darüber, ob das Modell sein Ziel behält oder verliert. Strukturierte Vorlagen und Versionierung helfen Teams dabei, diesen Kontext konsistent aufzubauen und zu halten.

* * *

Warum Context Engineering jetzt relevant wird

Prompt Engineering entstand, als Sprachmodelle vor allem für einzelne, isolierte Aufgaben genutzt wurden. Mit wachsender Kontextfenstergröße und der Verbreitung agentenbasierter Systeme hat sich das Nutzungsmuster grundlegend verschoben. Modelle bearbeiten heute mehrstufige Aufgaben, koordinieren Teilprozesse und arbeiten mit externen Werkzeugen zusammen. In diesem Umfeld reicht die Optimierung einzelner Prompts nicht mehr aus.

In der Arbeit mit komplexen LLM-Workflows zeigt sich ein wiederkehrendes Muster. Systeme, die auf Einzelprompt-Ebene hervorragend funktionieren, scheitern, sobald Schritte verkettet werden und der Kontext unkontrolliert wächst. Der Fehler liegt dabei selten im Modell selbst, sondern in der fehlenden Struktur drum herum. Entscheidend ist außerdem, dass das Kontextfenster kein dauerhaftes Gedächtnis bildet. Mit jeder Anfrage liest das Modell den gesamten bisherigen Verlauf neu, was bei wachsenden Workflows schnell zu unkontrollierten Zuständen führt. Context Engineering macht diesen Systemzustand sichtbar und steuerbar.

Die Entwicklung geht weiter in Richtung agentengesteuerter Abläufe, bei denen das Modell auf Basis seiner eigenen Ausgaben über den nächsten Schritt entscheidet. Das macht sauberes Kontext-Management noch wichtiger, weil Fehler in frühen Schritten sich durch den gesamten Ablauf fortpflanzen.

* * *

Context Engineering: Der entscheidende nächste Schritt

Das Kontextfenster ist kein Gedächtnis, sondern ein begrenzter Arbeitsbereich, der bei jeder Anfrage neu befüllt wird. Context Engineering ist die Praxis, diesen Arbeitsbereich bewusst zu gestalten. Relevante Informationen kommen gezielt hinein, irrelevante werden gefiltert, und der Systemzustand bleibt explizit sichtbar. Wer das beherrscht, arbeitet mit LLMs zuverlässiger und erzielt konsistentere Ergebnisse.

Prompt-Vorlagen, Versionierung und verkettete Flows sind die konkreten Werkzeuge, mit denen sich Context Engineering im Alltag umsetzen lässt. Weiterführende Patterns und Praxis-Tipps findest du im splicelog-Prompt-Engineering-Guide.