ChatGPT evaluation

  • Warum Modelle ihr Denken schlecht verschleiern können

    Warum Modelle ihr Denken schlecht verschleiern können

    Aktuelle Reasoning-Modelle können ihre eigenen Gedankenspuren meist nicht gezielt so formen, dass sie für Überwachungssysteme schwerer auswertbar werden. Genau diese Schwäche ist aus Safety-Sicht beruhigend, weil sie Chain-of-thought Monitoring heute als Schutzschicht vergleichsweise verlässlich macht. Was an der Schwäche der Modelle beruhigt Wie sich Denkspuren überhaupt steuern lassen sollen Welche Tests die Studie wirklich nutzt…