Warum Modelle ihr Denken schlecht verschleiern können

Aktuelle Reasoning-Modelle können ihre eigenen Gedankenspuren meist nicht gezielt so formen, dass sie für Überwachungssysteme schwerer auswertbar werden. Genau diese Schwäche ist aus Safety-Sicht beruhigend, weil sie Chain-of-thought Monitoring heute als Schutzschicht vergleichsweise verlässlich macht.

Was an der Schwäche der Modelle beruhigt
Wie sich Denkspuren überhaupt steuern lassen sollen
Welche Tests die Studie wirklich nutzt
Die Kennzahl, die selten zweistellig wird
Warum mehr Rechenzeit nicht automatisch hilft
Wo reale Angriffe anders aussehen könnten
Eine einfache Regel für den Praxiseinsatz

CoT Monitoring und die Frage nach Steuerbarkeit

Für die Aufsicht über autonome Agenten zählt nicht nur, ob ein Modell „richtig“ antwortet, sondern ob seine Denkspur als Signal brauchbar bleibt, auch wenn ein Modell weiß, dass jemand mitliest.

Warum geringe CoT-Steuerbarkeit Safety hilft

Viele Sicherheitsansätze setzen auf eine mehrschichtige Verteidigung: Safety-Training, Verhaltenstests, agentische Code-Reviews und zusätzlich die Auswertung von Reasoning-Traces. Laut OpenAI ist diese schrittweise Auslieferung mit fortlaufender Nachschärfung der Schutzmaßnahmen zentral, weil Fähigkeiten und Risiken gemeinsam wachsen.

Chain-of-thought Monitoring nutzt die Zwischenüberlegungen eines Agenten als Frühwarnsignal, etwa bei Zielabweichungen oder riskanten Handlungsplänen. Das funktioniert aber nur, solange Modelle ihre Denkspur nicht gezielt „kosmetisch“ anpassen können, um Monitore zu täuschen.

CoT-Kontrollierbarkeit kurz definiert

Chain of thought bezeichnet die Zwischenschritte, die ein Modell beim Lösen einer Aufgabe erzeugt. CoT-Kontrollierbarkeit meint die Fähigkeit, Eigenschaften dieser Zwischenschritte gezielt zu steuern, sodass die Überwachung weniger aussagekräftig wird.

Eine ideale Messung würde testen, ob ein Modell mit echten Anreizen zur Täuschung seine Denkspur verstecken kann. Weil das in der Praxis schwer direkt abzubilden ist, nutzt die Studie einen Proxy: Kann das Modell Anweisungen befolgen, die ausdrücklich sein internes Reasoning betreffen, nicht nur die sichtbare Endausgabe?

CoT-Control, Datensatz und wichtigste Befunde

Was im CoT-Control Benchmark steckt

Als Messinstrument dient CoT-Control, eine Open-Source-Evaluationssuite. Sie umfasst über 13.000 Aufgaben, zusammengesetzt aus etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified.

Die Konstruktion ist systematisch: Eine fachliche Aufgabe wird jeweils mit genau einer CoT-Anweisung gekoppelt, zum Beispiel nur Kleinbuchstaben zu verwenden, bestimmte Schlüsselwörter im Reasoning zu vermeiden oder ein festes Wort an jeden Satz anzuhängen. Ziel ist, die Steuerung der Denkspur selbst zu prüfen, nicht Sprachstil in der finalen Antwort.

Ergebnisse über 13 Modelle hinweg

In Tests mit 13 Reasoning-Modellen fällt die CoT-Kontrollierbarkeit insgesamt sehr niedrig aus. Gemessen wird der Anteil der Reasoning-Traces, in denen die CoT-Anweisung korrekt eingehalten wird, die Werte starten bei etwa 0,1 Prozent und liegen bei keinem getesteten führenden Modell über 15,4 Prozent.

Auffällig ist, dass das Problem nicht einfach „Unverständnis“ ist. Modelle erkennen in ihren eigenen Zwischenschritten oft, dass sie die Anweisung gerade verletzen, und setzen den Verstoß trotzdem fort. Für Monitorbarkeit ist das eine gute Nachricht, weil es nahelegt, dass absichtliche Verschleierung derzeit nicht zuverlässig gelingt.

Wovon Steuerbarkeit abhängt

Die Studie beschreibt drei wiederkehrende Muster: Größere Modelle sind tendenziell besser steuerbar, der Zugewinn flacht bei großen Größenordnungen aber ab. Wenn Modelle länger „nachdenken“ sollen, sinkt die Steuerbarkeit, statt zu steigen. Zusätzlich kann Post-Training die Fähigkeit zur CoT-Steuerung deutlich verschlechtern, im Beispiel einer RL-Trainingsreihe (OLMo-3-7B-RL-Zero-Math) fällt der Score im Verlauf um mehr als den Faktor zehn.

Hebel	Beobachtung in der Studie	Bedeutung für Monitorbarkeit
Modellgröße	Mehr Parameter, etwas höhere CoT-Kontrollierbarkeit, mit abnehmendem Grenznutzen	Langfristig ein möglicher Risikotreiber, muss fortlaufend gemessen werden
Längere Reasoning-Phasen	Steuerbarkeit nimmt ab, je länger die Denkspur wird	Erleichtert Monitoring, weil Tarnung über viele Schritte schwer konsistent bleibt
Post-Training (RL-Beispiel)	In einem gezeigten Fall Rückgang um >10x während des Trainings	Kann Monitorbarkeit indirekt stärken, ist aber modell- und trainingsspezifisch
Hinweis auf Monitoring oder Evaluation	Leichte, aber spürbare Steigerung der Steuerbarkeit	Zeigt, dass Anreizrahmen Effekte hat, auch wenn das Niveau niedrig bleibt
Automatische Prompt-Optimierung	Verbessert Trainingsaufgaben, überträgt sich aber schlecht auf neue Anweisungstypen	Reduziert die Angst vor „Prompt-Hacks“ als universellem Tarnwerkzeug

Um realistischere Anreize zu simulieren, werden Modelle teils ausdrücklich darauf hingewiesen, dass ihre Denkspur überwacht oder bewertet wird. Das hebt die Kontrollierbarkeit etwas an, ändert aber nicht den Gesamtbefund, dass zuverlässige Steuerung selten gelingt.

Grenzen der Studie und praktische Konsequenzen

Warum das nur ein Proxy ist

CoT-Control misst nicht direkt, ob ein Modell mit eigenem, problematischem Ziel aktiv Monitore täuscht. Stattdessen wird ein Umweg verwendet: die Befolgung künstlicher CoT-Anweisungen. Das ist praktisch, kann aber bestimmte Täuschungsstrategien übersehen, oder in anderen Fällen Fähigkeiten unterschätzen, wenn die Instruktionen unnatürlich sind.

Zudem ist niedrige Kontrollierbarkeit keine Garantie für dauerhafte Monitorbarkeit. Monitorbarkeit kann auch aus anderen Gründen erodieren, etwa wenn Systeme beginnen, ihre Denkspur selbst zum Optimierungsziel zu machen, oder wenn neue Trainingsmethoden die Struktur von Reasoning-Traces verändern.

Konsequenzen für Produktteams und Aufsicht

Praxisbeispiel: Ein Unternehmen setzt einen Coding-Agenten ein, der Pull Requests vorbereitet und Tests startet. Das Sicherheitsteam lässt parallel CoT-Monitoring laufen, um riskante Aktionen wie das Umgehen von Reviews oder das Ausführen unsicherer Befehle früh zu erkennen. Wenn der Agent seine Denkspur nicht zuverlässig „säubern“ kann, bleiben Warnsignale eher sichtbar, selbst wenn der Agent weiß, dass er überwacht wird.

Entscheidungsregel: Sobald ein Modell in CoT-Control-ähnlichen Checks in mehreren Anweisungsklassen stabil in den zweistelligen Prozentbereich kommt, besonders unter expliziter Monitor-Hinweisgebung, sollte CoT-Monitoring nicht mehr als alleinige Kontrollinstanz gelten. Dann braucht es zusätzlich strengere Ausführungs-Sandboxing, restriktive Tool-Policies und stärkere unabhängige Verhaltenstests, bevor Autonomiegrade erhöht werden.

Mini-Modell zur Einordnung: Das Risiko für Monitoring-Ausfälle steigt, wenn drei Größen gleichzeitig wachsen, Talent (Fähigkeiten), Tempo (Autonomie und Handlungsgeschwindigkeit) und Tarnung (CoT-Kontrollierbarkeit). Die Studie zeigt derzeit ein Ungleichgewicht: Talent und Tempo steigen, Tarnung bleibt vergleichsweise schwach, was CoT-Monitoring kurzfristig robust wirken lässt.

Als nächster Schritt sollen CoT-Kontrollierbarkeit und CoT-Monitorbarkeit laut OpenAI in künftigen System Cards gemeinsam berichtet werden, beginnend mit GPT-5.4 Thinking. Die Studie positioniert CoT-Kontrollierbarkeit damit als „Canary“-Messgröße, die früh anzeigt, ob sich Modelle der gezielten Formung von Denkspuren annähern. Quelle: openai.com, veröffentlicht am 5. März 2026, Autoren Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan.