GPT 5.5 bringt Agentenarbeit in den Alltag

GPT-5.5 ist am 23. April 2026 als neues Modell der GPT-5-Reihe erschienen und zielt auf Aufgaben, die nicht in einem Schritt erledigt sind, sondern Planung, Tool-Nutzung und Kontrolle brauchen. Laut OpenAI wird GPT-5.5 in ChatGPT und Codex für Plus, Pro, Business und Enterprise ausgerollt, eine API-Verfügbarkeit ist angekündigt. Der Schwerpunkt liegt auf agentischem Programmieren, Computerbedienung, Wissensarbeit und frühen Forschungsworkflows, bei gleichzeitig ähnlicher Antwortgeschwindigkeit pro Token wie GPT-5.4.

Übersicht:

Was GPT-5.5 für Arbeit am Computer verändert

GPT-5.5 ist laut OpenAI darauf optimiert, unübersichtliche Mehrteiler nicht nur zu beantworten, sondern in Teilschritte zu zerlegen, Tools zu nutzen, Ergebnisse zu prüfen und so lange weiterzuarbeiten, bis eine Aufgabe abgeschlossen ist. Das Modell wird als besonders stark bei Code, Recherche, Datenanalyse, Dokumenten und Tabellen sowie beim Bedienen von Software beschrieben. Gleichzeitig soll die Per-Token-Latenz im Produktbetrieb auf dem Niveau von GPT-5.4 liegen.

Für die Einordnung hilft ein einfaches Mini-Modell, das den aktuellen Markttrend gut abbildet: Intelligenz (gute Entscheidungen), Autonomie (Schritte selbst ausführen) und Ökonomie (Kosten pro Ergebnis) werden gleichzeitig optimiert. Genau diese Kombination wird bei Agentensystemen zum entscheidenden Hebel, nicht nur reine Wissensabfrage.

Wo GPT-5.5 laut OpenAI am stärksten ist

Agentisches Programmieren in Codex

Der sichtbarste Sprung liegt bei Aufgaben, die in echten Repos scheitern, weil Kontext, Nebenwirkungen und Tests zusammenspielen. OpenAI beschreibt GPT-5.5 in Codex als stärker beim Durchhalten über längere Arbeitsketten, beim Umgang mit unklaren Fehlerbildern und beim Absichern von Änderungen mit Tools und Tests. Zudem soll GPT-5.5 viele Codex-Aufgaben mit weniger Tokens abschließen, was in der Praxis oft mehr bringt als ein paar Prozentpunkte auf einer einzelnen Metrik.

Praktische Faustregel für Engineering-Teams: Wenn eine Aufgabe mehr als drei Schleifen aus „Ändern, Ausführen, Prüfen“ braucht, zählt Autonomie stärker als reine Codequalität auf den ersten Blick.

Wissensarbeit mit Tool-Kette

OpenAI positioniert GPT-5.5 als Modell, das Absichten schneller erfasst und daraus eine komplette Arbeitskette macht, also recherchieren, filtern, strukturieren, dokumentieren und finalisieren. Intern wird laut OpenAI Codex in vielen Funktionen wöchentlich genutzt, nicht nur in der Entwicklung. Genannte Beispiele umfassen unter anderem das Bewerten großer Mengen an Anfragen über ein Scoring- und Risikorahmenwerk sowie das teilautomatisierte Abarbeiten dokumentlastiger Prozesse wie Steuerformular-Reviews in sehr großem Umfang.

Intent-Erkennung bedeutet hier, dass aus unsauberen Stichpunkten ein Arbeitsplan wird, statt nur ein besserer Text.
Tool-Nutzung heißt, dass das Modell nicht beim Vorschlag stehen bleibt, sondern mit Browser, Dateien oder Systemen iterativ arbeitet.
Selbstkontrolle zeigt sich als Plausibilitätschecks, Gegenrechnungen oder Testläufe, bevor Ergebnisse abgegeben werden.

Frühe Forschung und technische Analyse

OpenAI berichtet über Verbesserungen bei mehrstufigen Forschungsaufgaben, in denen Datenqualität, Hypothesen und Auswertung ineinandergreifen, etwa in Genetik, Bioinformatik oder mathematischer Argumentation. Beschrieben werden Workflows, in denen GPT-5.5 Pro eher wie ein kritischer Co-Autor über mehrere Durchläufe genutzt wird, inklusive Kontext aus PDFs, Notizen und Code.

Wichtig ist die Abgrenzung: Das ist kein Ersatz für Labor, Peer Review oder klinische Validierung. Der Produktivitätsgewinn entsteht vor allem bei der schnellen Iteration zwischen Fragestellung, Analyseplan, Implementierung und Interpretation.

Benchmarks richtig lesen, ohne sich zu verrechnen

OpenAI veröffentlicht für GPT-5.5 eine breite Benchmark-Tabelle, die Coding, Wissensarbeit, Tool-Nutzung, Computerbedienung, akademische Evals und Cybersecurity abdeckt. Zwei Hinweise sind dabei zentral: Erstens sind nicht alle Evals gleich „realistisch“, zweitens können Einstellungen wie hoher Reasoning-Effort die Vergleichbarkeit beeinflussen. Bei SWE-Bench Pro wird zudem auf Hinweise zu möglicher Memorisation hingewiesen, was die Interpretation einzelner Scores erschwert.

Benchmark (Auswahl)	GPT-5.5	GPT-5.4	Vergleich (Auszug)
Terminal-Bench 2.0	82,7%	75,1%	Claude Opus 4.7: 69,4% \| Gemini 3.1 Pro: 68,5%
GDPval (wins or ties)	84,9%	83,0%	Claude Opus 4.7: 80,3% \| Gemini 3.1 Pro: 67,3%
OSWorld-Verified	78,7%	75,0%	Claude Opus 4.7: 78,0%
BrowseComp	84,4%	82,7%	Claude Opus 4.7: 79,3% \| Gemini 3.1 Pro: 85,9%
FrontierMath Tier 1–3	51,7%	47,6%	Claude Opus 4.7: 43,8% \| Gemini 3.1 Pro: 36,9%
CyberGym	81,8%	79,0%	Claude Opus 4.7: 73,1%

Als externe Referenz zur Methodik nennt OpenAI unter anderem den Artificial Analysis Intelligence Index, einen gewichteten Aggregatansatz über mehrere Evals. Für Leserinnen und Leser ist das nützlich, weil Einzelbenchmarks oft nur einen sehr schmalen Ausschnitt messen. Artificial Analysis Intelligence Index

Sicherheit, Red Teaming und kontrollierter Zugriff

OpenAI gibt an, GPT-5.5 mit den bislang stärksten Schutzmechanismen des Unternehmens auszurollen. Dazu zählen Evaluierungen entlang interner Frameworks, Tests mit internen und externen Red-Teamern sowie zusätzliche Prüfungen für fortgeschrittene Cybersecurity- und Biologie-Fähigkeiten. Außerdem wurden laut OpenAI Rückmeldungen von nahezu 200 Early-Access-Partnern vor dem Release gesammelt.

Für Cybersecurity ist die Kernaussage zweigeteilt: Das Modell ist stärker als GPT-5.4, erreicht laut OpenAI jedoch nicht die Stufe „Critical“. Gleichzeitig werden strengere Klassifikatoren und Kontrollen eingeführt, was für legitime Security-Arbeit mehr Reibung bedeuten kann, bis Policies und Signale feinjustiert sind.

Nachvollziehen: Details zur Bewertung und zu Risikokategorien stehen im System Card.
Rahmenwerk: Die Einordnung erfolgt entlang der Preparedness-Logik des Unternehmens.
Zugangsmodell: Für bestimmte defensive Cyber-Workflows verweist OpenAI auf Trusted Access for Cyber.

Effizienz und Infrastruktur, was hinter dem Tempo steckt

Ein Kernversprechen lautet: mehr Fähigkeit ohne spürbaren Tempoeinbruch. OpenAI schreibt, GPT-5.5 erreiche im Serving eine ähnliche Per-Token-Latenz wie GPT-5.4, obwohl größere Modelle oft langsamer werden. Zusätzlich soll GPT-5.5 bei Codex-Aufgaben häufig weniger Tokens brauchen, was Kosten und Durchlaufzeit gleichzeitig senken kann.

Technisch ordnet OpenAI das als Systemthema ein, nicht als einzelne Optimierung: Training und Serving seien auf NVIDIA GB200 und GB300 NVL72 Systemen mit entworfen worden. Außerdem beschreibt OpenAI, dass Codex und GPT-5.5 beim Tuning des eigenen Inferenz-Stacks geholfen haben, etwa beim Entwickeln besserer Heuristiken für Lastverteilung und Partitionierung, was in Summe die Token-Generationsgeschwindigkeit deutlich erhöht haben soll.

Verfügbarkeit, Preise und eine belastbare Entscheidungsregel

Zum Start am 23. April 2026 rollt GPT-5.5 laut OpenAI in ChatGPT und Codex für Plus, Pro, Business und Enterprise aus. GPT-5.5 Pro kommt in ChatGPT für Pro, Business und Enterprise. Für die API ist gpt-5.5 in Responses und Chat Completions angekündigt, inklusive größerem Kontextfenster, aber nicht als sofort überall verfügbares Standardprodukt, weil zusätzliche Schutzanforderungen gelten.

API-Variante (angekündigt)	Input	Output	Hinweise
gpt-5.5	$5 / 1M Tokens	$30 / 1M Tokens	1M Kontext, Responses und Chat Completions
gpt-5.5-pro	$30 / 1M Tokens	$180 / 1M Tokens	höhere Genauigkeit, deutlich teurer
Batch und Flex	jeweils halber Standardpreis		für planbare Jobs
Priority	2,5× Standardpreis		für enge SLAs

Für aktuelle Detailpreise und Tariflogik verweist OpenAI auf die offizielle Preisseite. OpenAI API Pricing

Entscheidungsregel, die in Teams funktioniert

Viele Schritte: Wenn eine Aufgabe Planung plus Tool-Kette braucht, zuerst GPT-5.5 nutzen, weil Autonomie den größten Hebel liefert.
Maximale Korrektheit: Wenn Fehlentscheidungen teuer sind, etwa in rechtlichen Analysen oder wissenschaftlicher Argumentation, GPT-5.5 Pro testen und die Mehrkosten gegen die eingesparte Prüfzeit rechnen.
Kostenlimit: Wenn Budget hart ist, Batch oder Flex einplanen und Aufgaben so formulieren, dass das Modell weniger Schleifen braucht, zum Beispiel mit klaren Akzeptanzkriterien und Testfällen.

Konkretes Praxisbeispiel, das den Unterschied sichtbar macht

Beispiel für einen „agentischen“ Auftrag an Codex, der nicht an der ersten Antwort endet, sondern auf Fertigstellung zielt:

Ziel: „Baue eine kleine Web-App, die externe Daten einliest, visualisiert und als Bericht exportiert.“
Akzeptanzkriterien: „Mindestens 10 Unit-Tests, ein End-to-End-Test, ein reproduzierbarer Build, und ein kurzer Audit-Abschnitt mit bekannten Risiken.“
Arbeitsmodus: „Plane zuerst, führe dann in kleinen Commits aus, und stoppe erst, wenn Tests grün sind und die Doku geschrieben ist.“

So wird das Modell auf Ergebnisqualität und Durchhalten optimiert, statt auf schöne Einzelsätze. Wer zusätzlich Browser- oder Dokumentkontext nutzt, sollte immer verlangen, dass Quellen, Annahmen und Unsicherheiten explizit ausgewiesen werden.

Weiterführend für das Produktumfeld: OpenAI bündelt die Modellankündigung und die Detailtabellen im Release-Artikel. Introducing GPT-5.5 Wer Codex im Detail verstehen will, findet technische Grundlagen in der Dokumentation. Codex Dokumentation