GPT-5.4 ist laut OpenAI ein Frontier-Modell, das gezielt auf professionelle Wissensarbeit und agentische Workflows optimiert wurde, verfügbar in ChatGPT, der API und Codex. Im Kern kombiniert es stärkere Planung und Recherche, sehr gute Code-Fähigkeiten, native Computerbedienung und deutlich bessere Token-Effizienz, damit komplexe Aufgaben mit weniger Nachfragen und geringeren Kosten durchlaufen. Zusätzlich gibt es GPT-5.4 Pro für maximale Leistung bei besonders anspruchsvollen Aufgaben.
- Welche Variante für welchen Arbeitsmodus passt
- Welche Zahlen den Leistungssprung belegen
- Wie Office-Artefakte und Faktentreue profitieren
- Was native Computerbedienung für Agenten ändert
- Welche Bilddetails jetzt wirklich zählen
- Warum Entwickler weniger Kontextwechsel brauchen
- Wie Tool Search Kosten in Tool-Ökosystemen senkt
- Ein End-to-End Beispiel aus dem Arbeitsalltag
Was GPT 5.4 in der Praxis liefert
Welche Variante für welchen Arbeitsmodus passt
GPT-5.4 startet in ChatGPT als GPT-5.4 Thinking, außerdem in API und Codex. Für Aufgaben mit maximaler Komplexität bietet das Unternehmen zusätzlich GPT-5.4 Pro in ChatGPT und API an.
In ChatGPT kann GPT-5.4 Thinking zu Beginn einen Arbeitsplan skizzieren, damit Korrekturen früh erfolgen können, bevor das Modell in Details abtaucht. Das zielt auf weniger Iterationsschleifen ab, besonders bei Deliverables wie Dokumenten, Folien und Tabellen, die sonst mehrere Runden benötigen.
Für Agenten ist außerdem relevant, dass GPT-5.4 in API und Codex native Computerfunktionen mitbringt und bis zu 1M Tokens Kontext unterstützt, damit Planung, Ausführung und Überprüfung über längere Arbeitsstrecken stabil bleiben.
Markteinordnung als Mini-Modell Task Tool Token
Für 2026 lässt sich der Sprung von GPT-5.4 mit einem einfachen Dreiklang einordnen, Task, Tool, Token. Task steht für die Qualität auf realen Arbeitsprodukten, Tool für die Fähigkeit, Software und APIs zuverlässig einzusetzen, Token für Kosten und Geschwindigkeit über lange Kontexte.
GPT-5.4 adressiert alle drei Achsen gleichzeitig, bessere Wissensarbeit, bessere Agenten über Tools und Computer, und weniger Tokenverbrauch beim Denken im Vergleich zu GPT-5.2. Das ist marktseitig der Unterschied zwischen „guter Chat“ und „verlässlicher Ausführer“ für Prozesse, die in Teams echte Zeit kosten.
Klare Entscheidungsregel für Teams und Entwickler
Eine robuste Auswahlregel lautet: Thinking für planungsintensive Wissensarbeit und Webrecherche, Pro wenn die Aufgabe hochriskant oder stark verzweigt ist, etwa rechtliche Analysen, komplexe Finanzmodelle oder lange Tool-Ketten mit vielen Abhängigkeiten. GPT-5.4 in der API lohnt sich besonders, wenn ein Agent über viele Tools und Anwendungen laufen soll und Kontextlänge oder Tokenkosten bisher der Engpass waren.
Wenn Latenz wichtiger ist als maximale Tiefe, ist in Codex zusätzlich ein /fast-Modus vorgesehen, der laut OpenAI die Token-Ausgabegeschwindigkeit erhöht, ohne das Modell zu wechseln. Das ist praktisch für Debugging-Schleifen, bei denen Geschwindigkeit den Flow bestimmt.
Leistungsbild in Zahlen
Welche Zahlen den Leistungssprung belegen
OpenAI berichtet mehrere Benchmarks, die unterschiedliche Arbeitsmodi abdecken, Wissensarbeit, Coding, Tool-Nutzung und agentische Webrecherche. Die folgende Übersicht zeigt die im Artikel genannten Werte für GPT-5.4, GPT-5.3-Codex und GPT-5.2.
| Benchmark | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (wins oder ties) | 83,0% | 70,9% | 70,9% |
| SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
| OSWorld-Verified | 75,0% | 74,0% | 47,3% |
| Toolathlon | 54,6% | 51,9% | 46,3% |
| BrowseComp | 82,7% | 77,3% | 65,8% |
Hinweis aus der Quelle: Der OSWorld-Wert für GPT-5.3-Codex hängt laut OpenAI mit einem neuen API-Parameter zusammen, der die ursprüngliche Bildauflösung bewahrt. Außerdem wurde ein zuvor kommunizierter OSWorld-Wert korrigiert.
Wie Office-Artefakte und Faktentreue profitieren
Beim Benchmark GDPval, der gut spezifizierte Wissensarbeit über 44 Berufe abfragt, erreicht GPT-5.4 laut OpenAI in 83,0% der Vergleiche mindestens Gleichstand gegenüber Branchenprofis. GPT-5.2 lag in der gleichen Darstellung bei 70,9%.
Für typische Büroarbeit nennt OpenAI zwei interne Messreihen: Bei Spreadsheet-Modellierungsaufgaben, wie sie bei Junior-Rollen im Investmentbanking auftreten, steigt der Mittelwert von 68,4% auf 87,3%. Bei Präsentationsaufgaben bevorzugten menschliche Bewerter Ergebnisse von GPT-5.4 in 68,0% der Fälle, begründet mit besserer Gestaltung, mehr visueller Vielfalt und wirksamerer Bildgenerierung.
Zusätzlich zielt GPT-5.4 auf weniger Falschaussagen, laut OpenAI sind einzelne Behauptungen 33% seltener falsch und ganze Antworten 18% seltener fehlerhaft, jeweils relativ zu GPT-5.2, gemessen an de-identifizierten Prompts mit Nutzer-Fehlermarkierungen.
Für Enterprise-Nutzung empfiehlt OpenAI ein neu veröffentlichtes ChatGPT-Add-in für Excel, um diese Artefakt-Arbeit näher an bestehende Arbeitsabläufe zu rücken.
Agenten am Rechner und in Bildern
Was native Computerbedienung für Agenten ändert
GPT-5.4 ist laut OpenAI das erste generalistische Modell des Unternehmens mit nativer Computerbedienung auf State-of-the-Art Niveau. Gemeint sind Agenten, die Software über Screenshots, Maus- und Tastaturaktionen steuern oder über Automationsbibliotheken wie Playwright arbeiten.
Für Entwickler ist die Steuerbarkeit zentral: Verhalten lässt sich über Developer Messages präzisieren, zusätzlich können Bestätigungsregeln definiert werden, um risikoreiche Aktionen nur nach Freigabe auszuführen. OpenAI positioniert das als Stellschraube zwischen Autonomie und Compliance.
In OSWorld-Verified, einem Desktop-Umgebungs-Test mit screenshotbasierter Navigation und Eingaben, berichtet OpenAI 75,0% Erfolg, gegenüber 47,3% bei GPT-5.2. In der gleichen Quelle wird menschliche Leistung mit 72,4% angegeben.
Welche Bilddetails jetzt wirklich zählen
Die Computerfähigkeit hängt an stabiler visueller Wahrnehmung. OpenAI nennt für MMMU-Pro ohne Tool-Nutzung 81,2% für GPT-5.4, gegenüber 79,5% bei GPT-5.2.
Beim Dokumentverständnis sinkt der Fehler auf OmniDocBench laut OpenAI von 0,140 auf 0,109, gemessen als normalisierte Edit-Distanz. Wichtig ist dabei der Kostenmodus: OmniDocBench wurde ohne zusätzlichen Reasoning-Aufwand gemessen, um einen low-cost, low-latency Betrieb abzubilden.
Neu sind außerdem abgestufte Bilddetail-Level für die API: Ein „original“ Modus soll bis zu 10,24 Millionen Pixel Gesamtfläche oder maximal 6000 Pixel Kantenlänge unterstützen, je nachdem, was zuerst greift. Der bisherige „high“ Modus wird mit bis zu 2,56 Millionen Pixel oder 2048 Pixel Maximaldimension beschrieben.
Entwicklerworkflow und Tool-Ökosystem
Warum Entwickler weniger Kontextwechsel brauchen
GPT-5.4 soll die Code-Stärken von GPT-5.3-Codex mit Agenten- und Office-Fähigkeiten verbinden, was vor allem bei längeren Aufgaben zählt, in denen iteriert, getestet und über Tools verifiziert wird. Auf SWE-Bench Pro liegt GPT-5.4 in den genannten Zahlen knapp vor GPT-5.3-Codex, gleichzeitig betont OpenAI geringere Latenz über Reasoning-Stufen hinweg.
In Codex kann ein /fast-Modus die Ausgabegeschwindigkeit erhöhen, laut OpenAI bis zu 1,5-fache Token-Velocity, ohne die „Intelligenz“ zu ändern. In der API wird für ähnliche Ziele Priority Processing genannt.
OpenAI hebt außerdem Fortschritte bei komplexen Frontend-Aufgaben hervor, mit stärkerer Funktionalität und sichtbar besserer Gestaltung. Als Beispiel dient ein experimenteller Codex-Skill „Playwright (Interactive)“, der visuelles Debugging und Playtesting während des Build-Prozesses ermöglicht.
Wie Tool Search Kosten in Tool-Ökosystemen senkt
Tool Search adressiert ein handfestes Skalierungsproblem: Wenn ein Agent sehr viele Tools kennt, bläht das klassische „alles in den Prompt“ die Eingabe um tausende bis zehntausende Tokens auf. Tool Search dreht das um, das Modell bekommt zunächst nur eine schlanke Tool-Liste und kann Definitionen bei Bedarf nachladen.
OpenAI demonstriert das mit 250 Aufgaben aus Scale’s MCP Atlas Benchmark bei aktivierten 36 MCP-Servern: Hinter Tool Search sinkt der Tokenverbrauch im Mittel um 47%, bei gleicher Genauigkeit. Neben Kosten wirkt das auf Geschwindigkeit und Kontextstabilität, weil weniger „toter Text“ den Cache und das Kontextfenster belegt.
Was sich bei agentischer Webrecherche verändert
Für hart zu findende Informationen nennt OpenAI BrowseComp als Messgröße. GPT-5.4 steigt dort gegenüber GPT-5.2 um 17 Prozentpunkte absolut, GPT-5.4 Pro erreicht laut Quelle 89,3% und setzt damit einen neuen Bestwert.
Operativ bedeutet das: Das Modell soll Suchläufe ausdauernder über mehrere Schritte führen, Quellen besser gewichten und Ergebnisse sauberer zusammenführen, besonders bei sehr spezifischen „Nadel im Heuhaufen“ Fragen. OpenAI beschreibt dabei Blocklists, um Benchmark-Kontamination zu reduzieren.
Praxisnahe Umsetzung
Ein End-to-End Beispiel aus dem Arbeitsalltag
Beispiel: Ein Finance-Team muss wöchentlich Lieferantenrechnungen prüfen, Abweichungen klären und eine Managementfolie aktualisieren. Mit GPT-5.4 kann ein Agent zuerst den Plan festlegen, welche Felder in einer Tabelle geprüft werden, welche Belege fehlen, welche Rückfragen an Einkauf gehen, und welche Kennzahlen in die Präsentation wandern.
Dann läuft die Ausführung über drei Schienen: Tabellenlogik wird in einem Spreadsheet aufgebaut oder editiert, Dokumente werden aus langen Verträgen und PDFs extrahiert, und bei Bedarf bedient der Agent eine Weboberfläche für Abgleiche, etwa Portale oder interne Tools. Die Entscheidung, ob „original“ Bilddetail nötig ist, folgt einer einfachen Regel: nur aktivieren, wenn Klickgenauigkeit oder kleine UI-Elemente relevant sind, sonst im günstigeren Detailmodus bleiben.
Die größte Zeitersparnis entsteht meist nicht durch eine einzelne bessere Antwort, sondern durch weniger Korrekturschleifen: weniger Halluzinationen, stabilerer Kontext über viele Schritte, und Tool Search, damit Tool-Definitionen nicht in jeder Anfrage erneut bezahlt werden.

