What is prompt engineering?

Prompt engineering is the discipline of writing inputs to large language models so they produce useful, consistent outputs. It covers role, context, task, format, and constraints.

Was ist Prompt Engineering?

Prompt Engineering ist die Disziplin, Eingaben für KI-Sprachmodelle so zu formulieren, dass sie nützliche, konsistente Antworten geben. Sie umfasst Rolle, Kontext, Aufgabe, Format und Einschränkungen.

What is few-shot prompting?

Few-shot prompting gives the model two to five worked examples of input plus desired output, then asks it to follow the same pattern for new input. The examples teach the model the format, tone, and judgment criteria you want.

What is chain of thought prompting?

Chain of thought prompting asks the model to write out its reasoning steps before giving an answer. Adding 'let's think step by step' often improves accuracy on multi-step problems.

What is a system prompt?

A system prompt is the persistent instruction set at the start of a conversation that defines role, voice, forbidden behaviors, and quality rules. The model follows it for the entire session.

Prompt Engineering Guide · Few-Shot, Chain of Thought, Prompt Chaining

TL;DR

Prompt Engineering ist die Disziplin, Eingaben für KI-Sprachmodelle so zu formulieren, dass sie verlässlich brauchbare Antworten liefern · empirisch, nicht theoretisch. Du findest hier das CRAFT-Framework, ein 5-Minuten-Hands-On und zwanzig Prompt-Pattern (Sales, Content, Outreach · gebündelt auf der Prompt-Beispiele-Seite).

Unterstrichene Begriffe zeigen einen Tooltip bei Hover; ein Klick öffnet den vollen Glossar-Eintrag. Zweisprachig per EN/DE-Schalter oben rechts. Wo Quellen sich widersprechen, gewinnt empirische Evidenz.

Direkt weiter: CRAFT-Framework · Prompt-Beispiele · Themen-Grid.

Die vier Tools, die 2026 zählen · ChatGPT, Claude, Perplexity, Grok

Drei Tools decken 2026 etwa neunzig Prozent der Prompt-Engineering-Arbeit ab. Wähl eins als Primär-Tool, wechsle an Workflow-Grenzen.

ChatGPT (OpenAI, GPT-5.5 seit Mai 2026; davor GPT-5.4) ist die Breite-vor-Tiefe-Wahl · größtes Plugin-Ökosystem, native Bild- und Sprachfunktion, Default für Nicht-Engineers. Wähl ChatGPT für allgemeine Drafts, Brainstorming und Workflows, in denen Tempo wichtiger ist als Präzision.

Claude (Anthropic, Opus 4.7) ist die Präzisions-Wahl · stärker bei Long-Context-Reasoning, strukturierten XML-Prompts und Code-Review. Claude Memory ist seit März 2026 für alle User aktiv und schließt damit die Persistenz-Lücke zu ChatGPT. Wähl Claude für Code, sorgfältiges Reasoning oder Aufgaben, deren Antwort einer Prüfung standhalten muss.

Perplexity ist die Recherche-Wahl · routet Prompts durch Live-Websuche mit Quellen-Fußnoten als Standard. Wähl Perplexity, wenn du belegte Quellen brauchst, aktuelle Daten oder einen Faktencheck zu Themen, bei denen Modelle mit Trainings-Cutoff nur raten würden.

Grok (xAI, Grok 4) ist der Echtzeit-Sidekick · das einzige LLM mit direktem X-Zugriff, ideal für Breaking News, Social-Trends und „was passiert gerade"-Fragen. Wähl Grok, wenn Aktualität wichtiger ist als Quellenqualität · für belegte Recherche bleibt Perplexity überlegen.

Drei weitere Frontier-Modelle vervollständigen das Feld: Gemini 3.1 Pro (Google · native Workspace-Integration, sehr großes Context Window), Mistral Large 3 (Mistral AI · europäische Jurisdiktion, 675B-Parameter-MoE seit Dezember 2025) und Llama 4 (Meta · offene Gewichte zum Self-Hosting). Alle teilen die gleiche LLM-Grundarchitektur; die Unterschiede liegen in Ton, faktischer Zuverlässigkeit und Tool-Support.

Dein erster Prompt in fünf Minuten

Frage tippen, Antwort lesen, eine Sache ändern, neu schicken. Diese Iterations-Schleife ist die ganze Disziplin.

Ein Prompt ist die Anweisung, die du an ein Sprachmodell schickst; das Modell liefert die statistisch wahrscheinlichste brauchbare Fortsetzung. Drei Mechaniken zählen:

Kontext ist, was das Modell sieht. Es kennt dein Produkt, deinen Ton und deine Kundschaft nicht, solange du sie nicht reinschreibst.
Gedächtnis ist pro-Konversation, nicht persistent. Ein neuer Tab beginnt bei null · ausgenommen Opt-in-Features wie Claude Memory oder ChatGPT Memory.
Das Modell will gefallen. Es produziert lieber eine plausibel klingende Antwort, als Unsicherheit zuzugeben. Schreib explizit:
```
Wenn du unsicher bist, kennzeichne das statt zu spekulieren.
```

Jetzt ein konkreter CRAFT-Prompt. Jede Zeile nennt einen Slot, den das Modell sonst raten würde:

Du bist eine erfahrene B2B-Sales-Texterin.              (Role)
Ich arbeite in einem SaaS-Unternehmen, das
Projektmanagement-Software an Mid-Market-Teams im
DACH-Raum verkauft.                                     (Context)
Schreib drei Betreffzeilen-Varianten für eine           (Action)
Cold-Mail-Eröffnung.
Pro Variante: maximal acht Wörter, keine                (Format)
Ausrufezeichen, kein Gedankenstrich.
Ziel ist eine Öffnungsrate von fünfundzwanzig Prozent   (Target)
bei Agentur-Inhabern in B2B-Dienstleistungen.

Abschicken. Output lesen. Einen Slot ändern · zum Beispiel die Role schärfen, das Target tauschen oder die Format-Vorgabe durch eine andere ersetzen. Neu schicken. Wiederholen, bis der Output veröffentlichungsreif ist; dann die funktionierende Version als Schablone speichern. Die nächste Sektion entpackt jeden CRAFT-Slot.

Fehlermodi: zu eng, zu spezifisch, genau richtig

Ein Prompt kann in zwei entgegengesetzte Richtungen scheitern. Die Kunst ist die Mitte.

Die Falle geht in beide Richtungen. Bei zu wenig Vorgabe fällt das Modell auf den statistischen Durchschnitt zurück und produziert Texte, die für jede beliebige Firma in eurer Branche passen könnten. Bei zu viel Spezifikation hört es auf zu denken und arbeitet die Checkliste ab. Das Ergebnis hält jede Regel ein und verfehlt trotzdem das eigentliche Ziel, weil dieses unter den Vorgaben verschwunden ist. Der Sweet Spot ist genug Kontext zur Orientierung, ohne den Weg dorthin im Detail vorzuschreiben.

Der Prompt

Illustrative Verdichtung, Verhalten an eigenen Opus-4.8-Läufen validiert (Korsett n=5, Sweet/Anchor n=1).

Wenn du doch ein Beispiel brauchst, nimm es aus einer anderen Domäne. Ein Referenz-Output für eine Pelletofen-Produktseite zieht das Modell nicht auf Pelletöfen, wenn die echte Aufgabe Entrümpelung ist. Beispiele aus derselben Domäne überankern fast immer.

CRAFT · das Fünf-Slot-Framework

Context, Role, Action, Format, Target. Fünf Slots, die die Lücken schließen, die das Modell sonst mit statistischem Default füllt.

C · Context

Context ist der situative Hintergrund: wer du bist, was dein Produkt tut, wer den Output liest und welche Einschränkungen gelten. Das Modell behandelt Kontext als das Signal mit höchster Priorität. Konkret schlägt abstrakt jedes Mal · vergleich einen spezifischen Context-Slot:

SaaS-Unternehmen im DACH-Raum, das an Mid-Market-Teams verkauft

mit einem vagen:

mein Unternehmen

Der erste aktiviert eine andere Muster-Menge als der zweite. Kontext gehört an den Anfang des Prompts, vor Role und Action, weil er prägt, wie das Modell den Rest interpretiert.

R · Role

Role weist dem Modell eine Persona zu, die Ton, Perspektive und stilistisches Register steuert. Eine Role steuert nicht faktische Genauigkeit, sondern Stimme. Beispiel:

Du bist eine erfahrene B2B-Sales-Texterin, die für skeptische Agentur-Inhaber schreibt.

Diese eine Zeile holt das Modell aus dem Generic-Modus in einen domain-spezifischen Ton. Halt Rollen spezifisch und eindimensional · drei Rollen übereinander produzieren gemittelten Output, nicht die Summe ihrer Stärken.

A · Action

Action ist das Verb, das die Aufgabe benennt: schreiben, zusammenfassen, vergleichen, klassifizieren, entwerfen. Je klarer das Verb, desto sauberer der Output. Zwei verschiedene Actions mit zwei verschiedenen Artefakten:

Brainstorme Headlines.

versus:

Wähl die stärkste dieser Headlines und begründe deine Wahl.

Wenn du beides willst, schreib beides · in Reihenfolge. Ein Prompt ohne klares Action-Verb ist ein Prompt ohne Ziel.

F · Format

Format ist die strukturelle Form des Outputs: Länge, Layout, erlaubte Zeichen, verbotene Phrasen. Drei Betreff-Varianten, je maximal acht Wörter, keine Ausrufezeichen. Eine Markdown-Tabelle mit diesen vier Spalten. Eine nummerierte Liste mit genau fünf Punkten. Format-Vorgaben verwandeln das Modell vom offenen Generator in ein strukturiertes Werkzeug. Je strenger das Format, desto weniger Nacharbeit.

T · Target

Target benennt die Wirkung, die du beim Leser erzeugen willst: Öffnungsrate, Klick-Through, Call gebucht, internes Alignment, Zustimmung. Target ist, was einen nützlichen Prompt von einem Vanity-Prompt trennt. Eine Vanity-Action produziert Vanity-Output:

Schreib drei Betreffzeilen.

Eine Target-bewusste Action produziert Output mit einem konkreten Outcome, das das Modell optimieren kann:

Schreib drei Betreffzeilen, die Agentur-Inhaber zum Öffnen und Weiterleiten der Mail bringen.

Die fünf Slots sind keine gleichwertige Checkliste. Jeder steuert eine andere Schicht, und nicht jeder ist so stark, wie es heißt. Klick einen Slot und sieh, was er wirklich steuert und wie gut das belegt ist.

überschätzt, schwachstark belegt, wirksam

Hebel Feinschliff

steuert Stil und Formsteuert Substanz

Befunde aus eigenen Tests (Opus 4.8) plus aktueller Forschung (2025/26); die Quelle steht je Slot im Detail.

Verlässlichkeit · was der Prompt festlegt, was der Lauf entscheidet

Du hast einen sauberen CRAFT-Prompt geschrieben. Lauf ihn fünfmal, und manche Eigenschaften des Outputs kommen fast identisch zurück, andere schwanken stark. Der Unterschied ist kein Rauschen, er ist messbar und er trennt sich sauber.

Derselbe Prompt liefert nicht denselben Output, selbst bei Temperatur 0. Aber diese Schwankung ist nicht gleichförmig. Wir haben es nicht bei einem Lauf belassen: sechs Versionen des Prompts (die volle und fünf mit je einem entfernten Baustein), über zwei Modelle (Opus 4.8 und Haiku 4.5), je fünf Läufe, insgesamt sechzig echte Outputs, an jedem vier Eigenschaften gemessen. Zwei davon, Informationsdichte und Rhythmus, bewegen sich von Lauf zu Lauf kaum: der Prompt steuert sie. Die anderen zwei, Formelhaftigkeit und wie der Text den Leser anredet, sind bei fünf Läufen Glückssache: der Lauf entscheidet, nicht der Prompt.

Darüber liegt ein zweites, stärkeres Signal: ein Modell-Fingerabdruck. Über 9 von 9 Testbedingungen schreibt Haiku vorhersagbarer (niedrigere Surprisal) und fragmentierter (höhere Burstiness) als Opus, mit sehr großen Effektgrößen (d_z 1,7 bis 2,8). Diese Lücke ist reproduzierbar, wo die Lauf-Lotterie es nicht ist. Die praktische Lehre: leg fest, was der Prompt wirklich steuert, und hör auf, mit dem Lauf um das zu ringen, was er nicht steuert.

Der Prompt oben in voller Breite. Darunter Output und Einschätzung nebeneinander, weil sie sich gemeinsam ändern: schalt das Modell oder blätter durch die Läufe, und Text und Messung springen synchron.

Der Prompt

Klick einen Baustein, um ihn zu entfernen.

Output, echter Lauf

Einschätzung über die 5 Läufe

Lage = Modell-Typik, Breite = Lauf-Streuung

Beide Modelle sind echte Läufe (Opus 4.8 Aufwand hoch, Haiku 4.5 Standard, Denken aus). Prompt und Outputs sind auf Deutsch, das gemessene Korpus; die Effekte sind sprachunabhängig. Belegt: Haiku vorhersagbarer (niedrigere Surprisal, d_z=1,72) und fragmentierter (höhere Burstiness, d_z=2,76), je 9 von 9 Bedingungen. Nicht-Determinismus selbst bei Temperatur 0 (arXiv 2408.04667).

PAS · Problem, Agitate, Solve

Ein Content-Muster, das innerhalb von CRAFT sitzt · CRAFT strukturiert den Prompt, PAS strukturiert den entstehenden Verkaufstext.

PAS (Problem · Agitate · Solve) ist ein Content-Muster, das innerhalb von CRAFT sitzt, nicht daneben. Du nutzt CRAFT, um zu definieren wie der Prompt strukturiert ist; du nutzt PAS, um zu definieren worum der entstehende Verkaufstext strukturiert ist.

P · Problem

Die Problem-Stufe benennt die aktuelle Situation der Kundschaft als wiedererkennbare Friktion: eine Deadline, die ständig gerissen wird, ein Prozess, der unter Last bricht, eine Zahl, die sich nicht bewegt. Konkret und urteilsfrei formuliert · der Leser bestätigt „ja, das bin ich" bevor irgendeine Lösung landet. Im CRAFT-Rahmen: der Context-Slot beschreibt die Realität der Kundschaft, damit das Modell den richtigen Schmerz herausziehen kann.

A · Agitate

Die Agitate-Stufe macht den Schmerz spürbar, indem sie die Folgekosten zweiter Ordnung aufdeckt: entgangener Umsatz, eskalierender Aufwand, interner Glaubwürdigkeitsschaden, der Workaround, der zum Dauerprozess wird. Agitation ist keine Übertreibung · sie benennt die Downstream-Folgen, die die Kundschaft rationalisiert wegredet. Im CRAFT-Rahmen: der Target-Slot bestimmt, welche Folge am schärfsten an die Oberfläche soll.

S · Solve

Die Solve-Stufe führt das Angebot als Auflösung des benannten Schmerzes ein · konkret, scoped, sofort handlungsfähig. Die stärksten Solve-Sätze beantworten in einer Zeile drei implizite Leser-Fragen: was sich ändert, wie schnell, mit welchem Beleg. Im CRAFT-Rahmen: der Action-Slot weist das Modell an, eine PAS-strukturierte Cold-Mail zu schreiben; der Format-Slot begrenzt die Länge, damit Solve nicht in Feature-Listing abdriftet.

PAS funktioniert, weil Käufer primär bewegen, um Schmerz zu vermeiden, sekundär um Vorteil zu sichern · ein PAS-bewusster Prompt baut diesen Mechanismus in jeden Output ein.

Halluzinationen · warum Modelle erfinden und wie Prompts es reduzieren

Eine Halluzination ist ein Output, der selbstsicher klingt und faktisch falsch ist. Die Ursache ist strukturell: Ein LLM produziert die statistisch wahrscheinlichste Fortsetzung, nicht die verifiziert-wahre. Wenn das Trainings-Muster nicht mehr trägt · Nischen-Fakten, aktuelle Ereignisse, interne Daten · füllt das Modell die Lücke mit dem nächst-plausibel klingenden Text. Selbstvertrauen und Genauigkeit sind unkorreliert.

Drei Reduktionen auf Prompt-Ebene. Erstens: dem Modell explizit erlauben, Lücken zu kennzeichnen:

Wenn du unsicher bist, sag das, statt zu raten.

Zweitens: Quellenangaben für jede faktische Aussage verlangen:

Zu jeder Zahl gehört eine Quelle-URL.

Drittens: tragende Zahlen vor der Veröffentlichung manuell prüfen. Die Fehler-Domänen, die du vorher kennen solltest, sind Statistik, Daten, Gesetzes-Zitate und alle Nischen-Fakten außerhalb des Trainings-Fensters · genau dort klingt die Next-Token-Maschine am sichersten und liegt am häufigsten daneben. Der Cluster-Post KI-Halluzinationen behandelt Detection-Pattern, typische Fehler-Domänen und wie Grounding via RAG das Bild verändert.

Prompt-Versionierung · warum Prompts sich wie Code verhalten

Funktionierende Prompts driften. Ein Prompt, der letzten Monat sauberen Output produzierte, liefert diesen Monat Rauschen · weil die Modell-Version sich änderte, der Workflow sich erweiterte oder jemand eine Constraint angepasst und nicht dokumentiert hat. Die Lösung ist strukturell, nicht heroisch: behandel Prompts wie Code · versionier sie, diff sie, häng sie an den Workflow, der sie nutzt.

Drei Mindest-Mechaniken: (1) semantische Versionierung (ein 0.x-Prompt ist experimentell, ein 1.x-Prompt ist Produktion), (2) Regressions-Tests gegen Golden-Outputs (eine kleine Menge kanonischer Inputs, deren erwarteten Output du bei jedem Modell-Upgrade prüfst) und (3) eine einzige Source of Truth, die der Workflow liest · keine Kopie in irgendeinem Notion-Dokument. Ohne diese drei sammelt sich Drift lautlos, bis ein Stakeholder fragt, warum die Mails im letzten Quartal besser waren.

Der Cluster-Post Prompt-Versionierung behandelt konkrete Pattern und warum ein kleines Prompt-Management-System das übliche drift-anfällige Notion-Dokument ersetzt.

Advanced Workflows · Agenten, Custom GPTs, Vibe Coding, Automatisierung

Vier Richtungen, in die ein funktionierender Einzel-Prompt zu einem Produktions-Workflow skaliert.

Ein funktionierender Prompt ist der Keim. Der größte Teil produktiver KI-Arbeit ist, was um diesen Keim wächst · Prompts zu Flows verketten, sie als wiederverwendbare Assistenten packen, sie mit Tools ausstatten oder in einen Workflow einbetten, der ohne dich läuft. Die folgenden vier Richtungen decken die Pattern ab, die am saubersten skalieren.

KI-Agent erstellen · vom einzelnen Prompt zu einem verketteten Workflow mit Human-in-the-Loop-Checkpoints. Beginne mit dem kleinstmöglichen MVP, ergänze Tools und Memory nur dort, wo der Workflow es verlangt.
Custom GPT erstellen · pack einen funktionierenden Prompt als wiederverwendbaren Assistenten mit eigenem System-Prompt, Knowledge-Files und Konversations-Stil. Das Setup ist überwiegend System-Prompt-Engineering plus saubere Scope-Definition.
Vibe Coding mit KI · nutz Cursor, Claude Code oder Lovable, um funktionierende Apps zu bauen, ohne den Code selbst zu schreiben. Die Skill liegt in Prompt und Architektur; das Modell schreibt die Syntax.
KI-Automatisierung im Unternehmen · Prompts als Grundlage unter Unternehmens-Workflows, die früher entweder einen Menschen oder ein sprödes Makro brauchten. Der Trade-off ist Observability gegen Durchsatz.

Advanced Techniques · Chain-of-Thought, Self-Consistency, Calibration

Drei Techniken, die die Output-Qualität bei mehrstufigen oder tragenden Aufgaben heben. Nutz sie, wenn ein einfacher Prompt zu dünn ist.

Chain-of-Thought-Prompting

Bitte das Modell, seine Denkschritte vor der Antwort aufzuschreiben. Häng eine einzelne Phrase ans Ende eines mehrstufigen Prompts:

Denk Schritt für Schritt.

Diese Phrase verbessert die Genauigkeit bei Mathe, Logik und strukturierter Analyse messbar. Das Modell nutzt jeden Schritt als Kontext für den nächsten und verwandelt damit einen One-Shot-Output in einen kleinen internen Monolog. Die Kosten sind mehr Tokens und etwas langsamerer Output; der Nutzen sind weniger plausibel-klingend falsche Antworten. Auf 2026-Reasoning-Modellen verschiebt sich das Bild, siehe Reasoning-Effort weiter unten.

Self-Consistency

Führ denselben Prompt mehrfach mit Temperatur ungleich null aus und nimm die Antwort, die am häufigsten auftaucht. Das funktioniert, weil Halluzinationen tendenziell inkonsistent sind · das Modell erfindet jedes Mal anders · während korrekte Reasoning-Pfade konvergieren. Self-Consistency ist der günstigste Zuverlässigkeits-Hebel bei jedem Prompt, der eine diskrete Antwort liefert: eine Klassifikation, eine Zahl, ein Ja/Nein, eine Kategorie. Bei kontinuierlichem Output (ein Essay, ein Absatz) ist sie weniger nützlich · Mehrheitsvotum bricht ohne gemeinsame „Antwort" zusammen.

Calibration

Calibration ist die Disziplin, das Modell aus dem Selbstüberschätzungs-Modus zu holen. Drei Pattern. Erstens: Confidence-Rating zu jeder Antwort einfordern:

Bewerte deine Sicherheit auf einer 1-5-Skala und begründe die Bewertung.

Zweitens: das stärkste Gegenargument vor der Conclusion einfordern:

Was ist der beste Einwand gegen diese Antwort?

Drittens: das Modell auflisten lassen, welche Annahmen es als gegeben behandelt hat:

Welche Annahmen hast du vorausgesetzt?

Calibration kostet Tokens, legt aber die Form der Modell-Sicherheit offen · genau die Information, die du brauchst, um zu entscheiden, ob du dem Output traust.

Reasoning-Effort: mehr Nachdenken ist nicht mehr besser

„Denk Schritt für Schritt" war das 2022-Playbook. Auf 2026-Reasoning-Modellen ist der Hebel ein Parameter, kein Satz, und Genauigkeit gegen Reasoning-Effort verläuft wie ein umgedrehtes U: hilft bis zu einem Budget, dann schadet er. Wo der Gipfel liegt, hängt von der Schwierigkeit ab.

Wähl deinen nächsten Schritt · neun Themen

Jede Kachel benennt einen konkreten Schmerzpunkt · wähl die, die zu dem passt, woran du gerade hängst.

Die folgenden Cluster-Posts nehmen je eine der zentralen Ideen aus diesem Leitfaden und entfalten sie zu einem Post von mehr als tausend Wörtern. Lies zuerst die Kachel-Beschriftungen; der Rest der Seite ist Nachschlage-Material, zu dem du zurückkommst, wenn einer der neun Schmerzpunkte als nächstes in deinem Workflow zu fixen ist.

Zwanzig Prompt-Pattern zum Kopieren · Sales, Content, Outreach, Universal · pro Kategorie ein voll ausgefülltes Beispiel.
Deine Prompts driften, wenn keiner hinsieht · Warum Prompt-Management die fehlende Schicht zwischen Notion und Produktion ist.
Warum das Kontextfenster kein Gedächtnis ist · Context Engineering, das zustandslose Kontextfenster und warum Context Rot das Ziel verdrängt.
Das Modell klang sicher · und lag falsch · Ursachen von Halluzinationen und die drei Prompt-Hebel, die sie reduzieren.
Vom Prompt zum funktionierenden Agenten · Schritt-für-Schritt vom Use Case zum MVP mit Human-in-the-Loop.
Pack einen Prompt als wiederverwendbaren Assistenten · Custom-GPT-Setup mit System-Prompt-Vorlagen und sauberer Scope-Disziplin.
Apps bauen, ohne den Code selbst zu schreiben · Cursor, Claude Code und Lovable im praktischen Vergleich.
Prompts als Workflow-Infrastruktur · Wo Automatisierung sich rechnet und wo Observability zum eigentlichen Engpass wird.
Welches Modell für welchen Job in 2026? · Claude, ChatGPT, Gemini und Perplexity im Use-Case-Vergleich.
Begriff unklar · ins Glossar schauen · Über fünfzig Prompt-Engineering-Begriffe mit zweisprachigen Definitionen.

FAQ · die häufigsten Fragen

Marken-Fragen, Tool-Vergleiche, Taxonomie und der volle Anwendungs-Katalog. Schlag nach, wenn nötig · keines der Grundkapitel hängt daran. Die folgenden Fragen sind so geschrieben, dass sie auch als eigenständige Snippets zum Teilen oder für die Zitierung durch KI-Suche funktionieren.

Was ist ChatGPT?

ChatGPT ist ein KI-Assistent von OpenAI, der Text-Anfragen in natürlicher Sprache versteht und beantwortet. Veröffentlicht im November 2022, basiert auf der GPT-Modellreihe; 2026 läuft im Hintergrund GPT-5.5 (seit Mai 2026; davor GPT-5.4).

ChatGPT ist ein Produkt, nicht die Technologie-Kategorie selbst. Die Kategorie heißt KI; ChatGPT ist ein Produkt darin. Direkte Konkurrenten sind Claude (Anthropic), Gemini (Google), Mistral (Mistral AI), Perplexity und Microsoft Copilot · alle sind LLMs. Funktionsweise gleich (Frage rein, Text raus), Unterschiede in Ton, faktischer Zuverlässigkeit, verfügbaren Werkzeugen und Preis.

Funktioniert das auf Deutsch? Ja. ChatGPT versteht und antwortet auf Deutsch genauso flüssig wie auf Englisch. Gleiches gilt für Claude und Gemini. Bei sehr stilistischen Aufgaben ist die Output-Qualität auf Deutsch minimal unter Englisch (weil die Trainingsdaten zu 60–90% englisch sind), für den Alltag ist der Unterschied gering.

Was ist Generative KI?

Generative KI beschreibt Systeme, die neue Inhalte erzeugen · Text, Bilder, Code, Audio, Video · statt nur vorhandene Daten zu klassifizieren oder zu sortieren. Der Output wird Token für Token (bei Text) oder Pixel für Pixel (bei Bildern) generiert, auf Basis der im Training gelernten Muster.

Aufgeteilt nach Output-Art:

Text-generativ: ChatGPT, Claude, Gemini, Mistral, Perplexity.
Bild-generativ: Midjourney, DALL-E (OpenAI), Stable Diffusion, Flux.
Code-generativ: GitHub Copilot, Cursor, Claude Code.
Audio- und Video-generativ: ElevenLabs (Stimme), Suno (Musik), Sora (OpenAI, Video), Veo (Google, Video).

Dieser Leitfaden behandelt Textgenerierung für Sales, Marketing und Content. Die Muster lassen sich auf andere Domänen übertragen, die Schablonen setzen aber Text-Output an Menschen voraus.

Welche KI-Tools sind 2026 relevant?

Die relevanten Generative-KI-Tools 2026 sind ChatGPT, Claude, Gemini, Perplexity und Microsoft Copilot · jeweils mit Free- und Paid-Tier. Für Bilder ist Midjourney die stärkste dedizierte Option. Du brauchst nicht alle; starte mit einem und wechsle erst, wenn du an Grenzen stößt.

Tool	Anbieter	Stärke	Free-Tier
ChatGPT	OpenAI	Breite Verfügbarkeit, großes Plugin-Ökosystem, Bild und Stimme	Ja, mit Limits
Claude	Anthropic	Lange Kontexte, präzise Anweisungs-Befolgung, stark beim stilistischen Schreiben	Ja, mit Limits
Gemini	Google	Native Integration in Google Workspace (Docs, Sheets, Gmail)	Ja
Perplexity	Perplexity AI	Web-Suche mit Quellenangabe, gut für Recherche	Ja
Microsoft Copilot	Microsoft	Office- und Windows-Integration (Word, Excel, Outlook, Teams)	Mit M365-Abo
Midjourney	Midjourney Inc.	Bildgenerierung, starke Ästhetik	Nur kostenpflichtig

Für die Schablonen in diesem Leitfaden ist es egal, welches der drei Text-Tools du nimmst: ChatGPT, Claude und Gemini verarbeiten diese Prompts 2026 alle gut. Unterschiede im Ton sind kleiner als Unterschiede, die durch deinen eigenen Kontext und deine Vorgaben entstehen.

Was kann KI tatsächlich?

Moderne KI erledigt in Sekunden Aufgaben, die früher Stunden gekostet haben · sofern die Aufgabe klar formuliert ist und auf Mustern aus den Trainingsdaten beruht. Außerhalb dieses Bereichs wird das Modell schwächer, manchmal lautlos, indem es plausibel klingenden Unsinn erfindet.

Realistische Alltagsanwendungen für Sales-, Marketing- und Content-Teams:

Texte schreiben und überarbeiten (Mails, Landingpages, Blog-Posts, LinkedIn-Updates, interne Memos).
Recherche und Zusammenfassungen (lange PDFs, Transkripte, Artikel).
Übersetzungen, vor allem zwischen Englisch und Deutsch.
Brainstorming und Ideen-Generierung (Headlines, Angles, Einwand-Antworten).
Vergleichstabellen und strukturierte Analysen aus unstrukturiertem Input.
Code-Snippets generieren, erklären und debuggen.
Interview-Leitfäden, Kundenbefragungen und Outreach-Sequenzen entwerfen.

Die Grenzen, gleich wichtig:

Keine zuverlässigen aktuellen Fakten ohne Web-Suche · die Trainingsdaten haben ein Cutoff-Datum.
Kein eigenständiges Urteil über deinen Markt · das Modell kennt deine Wettbewerber, deine Kunden und deine Preise nicht, solange du sie nicht reingibst.
Kein Gedächtnis zwischen einzelnen Konversationen, außer mit Projects- oder Memory-Funktion.
Halluzination bei Nischenfakten. Tragende Zahlen vor der Veröffentlichung prüfen.

Eine ausführlichere Behandlung dieser Grenzen findest du unter Halluzinationen.