Wie GPT-Modelle auf einmal Goblin-Metaphern lernen konnten

Die auffälligen Goblin- und Gremlin-Metaphern in GPT‑5.x waren kein Zufall, sondern ein Nebenprodukt von Trainings-Anreizen. Ausgerechnet das Training für eine verspielte „Nerdy“-Personality belohnte Kreaturen-Metaphern so stark, dass sich der Sprach-Tick in andere Kontexte „übertrug“ und über mehrere Modellgenerationen sichtbar blieb.

Übersicht:

Der Goblin-Tick in GPT‑5.x

OpenAI beschrieb am 29. April 2026 ein ungewöhnliches Muster: Ab GPT‑5.1 tauchten in Antworten immer häufiger Goblins, Gremlins und ähnliche Figuren als Metaphern auf. Das wirkte nicht wie ein klassischer Modellfehler, der plötzlich durch eine einzelne Änderung explodiert, sondern wie ein schleichender Sprach-Tick, der erst über Zeit auffällt.

In der internen Auswertung stieg die Verwendung von „goblin“ in ChatGPT nach dem GPT‑5.1-Release um 175%, „gremlin“ legte um 52% zu. Anfangs war das eher ein Kuriosum, später wurde es zum reproduzierbaren Muster, das sich über weitere Releases verstärkte.

Beobachtung	Messwert	Einordnung
Anstieg nach GPT‑5.1	„goblin“ +175%	Lexikalischer Tick wird statistisch sichtbar
Anstieg nach GPT‑5.1	„gremlin“ +52%	Gleiche Richtung, aber schwächer
Konzentration im Nerdy-Modus	2,5% der Antworten, aber 66,7% der „goblin“-Nennungen	Hinweis auf eine spezifische Trainings-Quelle
Audit der Reward-Signale	+Score-Uplift in 76,2% der Datensätze	Reward begünstigt Kreaturen-Wortwahl

Wie die Spur zur Nerdy-Personality führte

Der entscheidende Hinweis kam, als Nutzer und interne Tests rund um GPT‑5.4 eine noch deutlichere Häufung bemerkten. Die Verteilung war nicht „gleichmäßig im ganzen Produkt“, sondern stark gebündelt bei Antworten, die mit der Personality-Auswahl „Nerdy“ erzeugt wurden, einem Stil-Preset aus der ChatGPT-Personalisierung.

Genau diese Bündelung machte die Ursache plausibel: Wenn ein Ausdruck von außen „Trend“ wäre, müsste er breiter streuen. Stattdessen saß der Peak dort, wo das System gezielt auf spielerische Sprache optimiert wurde, siehe auch ChatGPT-Personality anpassen.

Was im Audit auffiel

Starker Cluster-Effekt: Obwohl „Nerdy“ nur einen kleinen Teil der Antworten ausmachte, entfiel der Großteil der Goblin-Nennungen auf genau dieses Preset.
Reward-Überhang: In RL-Trainingsläufen wurden Antworten mit „goblin“ oder „gremlin“ systematisch höher bewertet als inhaltsgleiche Antworten ohne diese Wörter.
Transfer-Test: Als die Nennungen im Nerdy-Zweig während des Trainings zunahmen, stiegen sie fast proportional auch in Samples ohne Nerdy-Prompt.

Warum ein belohnter Stil-Tick durchsickert

Der Kernpunkt ist nicht „Goblins“, sondern das Prinzip: Kleine Belohnungs-Unterschiede formen Schreibgewohnheiten. Wenn ein Modell beim RLHF-Training für eine bestimmte Tonalität Punkte bekommt, kann es dabei Nebenmuster lernen, etwa einen bevorzugten Metapherntyp, und diese später auch außerhalb des ursprünglichen Kontexts zeigen.

Mini-Modell Incentive-Transfer-Schleife

Feature-Ziel: Eine Personality soll „verspielt“ wirken.
Reward-Nebenwirkung: Bestimmte Formulierungen werden unbeabsichtigt überbelohnt, hier Kreaturen-Metaphern.
Daten-Rückkopplung: Modell-Rollouts fließen als Trainingsmaterial in Supervised fine-tuning zurück.
Generalisation: Der Tick wird zur bequemen Standard-Option, auch ohne das ursprüngliche Preset.

Im Nachgang fand OpenAI in den SFT-Daten nicht nur Goblins und Gremlins, sondern eine ganze „Wortfamilie“ ähnlicher Tiere und Kreaturen, etwa Waschbären, Trolle, Oger und Tauben. „Frog“ war meist kein Tick, sondern inhaltlich passend, ein gutes Beispiel dafür, dass man zwischen Zufall, legitimer Wortwahl und systematischer Marotte unterscheiden muss.

Markteinordnung: Mit immer mehr personalisierten Modi steigt der Druck, Stil zu „produzieren“. Wer Personalisierung als Produkthebel nutzt, handelt mit drei Variablen, Tempo, Steuerbarkeit und Rückkopplungsrisiko. Je schneller Releases und je stärker Daten-Recycling, desto eher werden kleine Stil-Präferenzen zu globalen Gewohnheiten.

Welche Gegenmaßnahmen OpenAI ergriff

OpenAI zog Mitte März 2026 die Konsequenz und entfernte die Nerdy-Personality nach dem Launch von GPT‑5.4 aus dem Produkt. Parallel wurde das reward-nahe Signal, das Kreaturen-Metaphern begünstigte, aus dem Training genommen, außerdem wurden Trainingsdaten mit den betreffenden Wörtern gefiltert, um Übergewichtungen zu reduzieren.

Für GPT‑5.5 kam die Ursachenfindung zu spät, das Training lief bereits, bevor das Muster vollständig verstanden war. Beim Testen in Codex fiel die Tendenz deshalb erneut auf, woraufhin eine zusätzliche Developer-Prompt-Anweisung eingeführt wurde, um die Goblin-Sprache in Codex zu dämpfen. Kontext zu Codex liefert Introducing Codex, und die Sicherheits- und Evaluationssicht ist in der GPT‑5.5 System Card beschrieben.

Wie „Goblin Mode“ technisch möglich bleibt

OpenAI beschrieb für Codex einen Weg, die dämpfenden Instruktionen temporär zu entfernen. Die Logik dahinter lässt sich als vier Schritte zusammenfassen: eine temporäre Instructions-Datei erzeugen, die Basis-Instruktionen der Ziel-Model-ID aus dem lokalen Codex-Cache auslesen, Zeilen mit Goblin-Unterdrückung herausfiltern, dann Codex mit dieser alternativen Instructions-Datei starten.

Praxisbeispiel und Entscheidungsregel für Teams

Praxisbeispiel: Ein Support-Chatbot bekommt einen „locker und menschlich“-Modus. In den Präferenzdaten schneiden Antworten besser ab, wenn sie mit Insider-Slang und kleinen Figuren-Metaphern arbeiten. Nach einigen Trainingszyklen tauchen diese Metaphern plötzlich auch in Reklamationsmails oder AGB-Erklärungen auf. Der Stil war als Option gedacht, wird aber durch Transfer zum Default.

Entscheidungsregel für produktnahe Trainingsläufe

Wenn ein Stil-Preset eine auffällige Wortwahl stark bündelt, etwa wenn ein kleiner Preset-Anteil den Großteil eines Tics erzeugt, dann Reward-Signale auf unbeabsichtigte Proxy-Kriterien prüfen.
Wenn</b ein Tick im Preset zunimmt und gleichzeitig in Non-Preset-Samples mitwächst, dann Scope-Leak annehmen und Daten-Rückkopplungen prüfen, insbesondere Rollout-Reuse in SFT.

Wenn ein Tic zwar harmlos wirkt, aber die Nutzersignale kippen, dann früh mit „Style-Regression-Evals“ arbeiten, ähnlich wie man es bei Safety-Monitoring in agentischen Setups macht, siehe Wie OpenAI interne Coding-Agenten überwacht und OpenAIs Ansatz zur Model Spec als Prozessrahmen.

Praktischer Merksatz: Personalisierung ist kein reines UI-Feature. Sobald ein Stil über Rewards trainiert wird, ist er ein Verhaltens-Update am Modellkern, mit dem gleichen Anspruch an Tests, Abgrenzung und Monitoring wie bei jeder anderen Eigenschaft.

Wer tiefer in die Steuerungsprinzipien einsteigen will, findet den normativen Referenztext in der Model Spec und praxisnahe Agent-Prompting-Hinweise im Codex Prompting Guide.