ChatGPT evaluation

Warum Modelle ihr Denken schlecht verschleiern können

Aktuelle Reasoning-Modelle können ihre eigenen Gedankenspuren meist nicht gezielt so formen, dass sie für Überwachungssysteme schwerer auswertbar werden. Genau diese Schwäche ist aus Safety-Sicht beruhigend, weil sie Chain-of-thought Monitoring heute als Schutzschicht vergleichsweise verlässlich macht. Was an der Schwäche der Modelle beruhigt Wie sich Denkspuren überhaupt steuern lassen sollen Welche Tests die Studie wirklich nutzt…

März 6, 2026

Warum Modelle ihr Denken schlecht verschleiern können