Agenten machen KI vom Chat zum Mitarbeiter

OpenAIs Auswertung zu Codex zeigt einen klaren Wechsel: KI wird im Arbeitsalltag weniger als Antwortmaschine genutzt, sondern zunehmend als delegierter Agent für längere Aufgaben. Der zentrale Unterschied liegt in der Arbeitseinheit: Statt einzelner Prompts übernimmt ein Agent mehrere Schritte, nutzt Tools, prüft Zwischenergebnisse und arbeitet parallel an Aufgaben, die Menschen teils Stunden kosten würden.

Übersicht:

Vom Chat zur delegierten Arbeit

Chatbots liefern meist kurze, abgeschlossene Antworten. Agenten wie Codex können dagegen über längere Zeit an einer Aufgabe arbeiten, Werkzeuge aufrufen, Umgebungen bedienen und Zwischenschritte selbst korrigieren.

Damit verschiebt sich die Rolle von KI im Büro. Sie wird weniger zu einem Suchfeld mit Textausgabe und stärker zu einer Arbeitsinstanz, der man ein Ziel übergibt. Das ähnelt dem Unterschied zwischen einer Frage an einen Kollegen und der Übergabe eines Arbeitspakets.

OpenAI beschreibt diese Entwicklung anhand der eigenen Codex-Nutzung und einer Economic-Research-Auswertung. Besonders relevant ist die Beobachtung, dass der Einsatz nicht bei Entwicklern stehen bleibt, sondern in Rechtsabteilung, Recruiting, Finance, Operations und Marketing ankommt.

Wie stark Codex bereits genutzt wird

Innerhalb von OpenAI war ChatGPT nach dem öffentlichen Codex-Start zunächst weiter das dominierende KI-Werkzeug. Bis August 2025 entfielen bei durchschnittlichen Mitarbeitern weniger als 10 Prozent der Output-Tokens auf Codex. Im Juni 2026 sieht das Bild anders aus: Codex ist laut OpenAI in allen Abteilungen das primäre KI-Werkzeug für Arbeit.

Nutzergruppe	Aktive Nutzer mit Codex im Juni 2026	Codex-Anteil an Output-Tokens im Juni 2026
OpenAI intern	97,9 Prozent	99,8 Prozent
Organisationen	17,3 Prozent	63,3 Prozent
Einzelnutzer	0,7 Prozent	16,5 Prozent

Die Zahlen zeigen zwei Dinge zugleich. Erstens bleibt die breite Individualnutzung noch niedrig. Zweitens erzeugen aktive Codex-Nutzer überproportional viel Arbeitsvolumen, weshalb der Token-Anteil deutlich höher liegt als der reine Nutzeranteil.

Auch die Art der Aufgaben verändert sich. Bis Mai 2026 hatten 80,6 Prozent der untersuchten Einzelnutzer mindestens eine Codex-Anfrage gestellt, deren Aufwand für einen Menschen auf mehr als 30 Minuten geschätzt wurde. 70,2 Prozent lagen mindestens einmal über einer Stunde, 25,6 Prozent mindestens einmal über acht Stunden.

Diese Schätzungen sind keine minutengenauen Messungen. OpenAI nutzt dafür ein LLM-as-Judge-Verfahren, also ein Modell, das Codex-Transkripte bewertet und daraus einen menschlichen Zeitaufwand ableitet. Die Werte eignen sich deshalb besser als Richtungssignal denn als exakte Arbeitszeiterfassung.

Warum der Einsatz über Engineering hinauswächst

Entwickler waren die erste Nutzergruppe, weil Codex als Coding-Agent gestartet ist. Bei OpenAI erreichten Ingenieure im Dezember 2025 den Punkt, an dem der Großteil ihrer OpenAI-Nutzung auf Codex entfiel. Heute erzeugen sie laut den vorliegenden Angaben rund 99 Prozent ihrer Output-Tokens mit Codex statt mit ChatGPT.

Interessanter ist jedoch die zweite Welle. Legal, Finance und Recruiting wechselten später, etwa im April 2026, aber deutlich schneller. Juristen und Recruiter bei OpenAI erzeugen inzwischen mehr als 85 Prozent ihrer Output-Tokens mit Codex.

Die stärkste Dynamik liegt bei Nicht-Entwicklern. Seit August 2025 stieg die Zahl nicht-technischer Codex-Nutzer bei Einzelnutzern um den Faktor 137, bei Organisationsnutzern um den Faktor 189 und intern bei OpenAI um den Faktor 12. Der niedrigere interne Faktor dürfte damit zusammenhängen, dass OpenAI bereits auf einem höheren Ausgangsniveau startete.

Codex wird dabei nicht überall gleich eingesetzt. Engineering und Research nutzen es stark für Code, während Finance, Business Operations, Marketing und Operations häufiger Wissensarbeit, Analyse und strukturierte Dokumente erzeugen. Trotzdem überschreiten viele Aufgaben klassische Rollenränder.

Abteilung	Engineering und Coding	Datenanalyse	Finanzanalyse	Wissensarbeit	Sonstiges
Engineering	72 Prozent	4 Prozent	1 Prozent	18 Prozent	5 Prozent
Data Science und Research	51 Prozent	10 Prozent	0 Prozent	30 Prozent	9 Prozent
Finance und Biz Ops	31 Prozent	9 Prozent	16 Prozent	34 Prozent	10 Prozent
Product, Marketing und Ops	25 Prozent	3 Prozent	7 Prozent	51 Prozent	15 Prozent
Sonstige Rollen	50 Prozent	7 Prozent	2 Prozent	38 Prozent	4 Prozent

Ein Praxisbeispiel macht den Effekt greifbar: Ein Recruiting-Team kann Codex bitten, Kandidatenlisten zu bereinigen, Interviewdaten in ein einheitliches Format zu bringen, ein kleines Auswertungsskript zu schreiben und daraus ein Dashboard für Hiring-Manager vorzubereiten. Früher wären dafür mehrere Übergaben zwischen Recruiting, Data und Engineering nötig gewesen.

Was das wirtschaftlich bedeutet

Die wichtigste Markteinordnung lautet: Agenten senken die Kosten für Aufgabenwechsel. Wer bisher für kleine Automatisierungen, Datenumformungen oder interne Tools auf Spezialisten warten musste, kann solche Randaufgaben häufiger selbst anstoßen und anschließend prüfen.

Ein hilfreiches Mini-Modell ist Aufgabe, Kontext, Kontrolle. Agenten werden wertvoll, wenn eine Aufgabe klar abgegrenzt ist, wenn genug Kontext verfügbar ist und wenn das Ergebnis zuverlässig überprüft werden kann. Fehlt einer dieser drei Bausteine, steigt das Risiko für Fehlleistung, Scheingenauigkeit oder unnötige Nacharbeit.

Für Unternehmen verschiebt sich damit die Produktivitätsfrage. Es reicht nicht, Mitarbeitern Zugang zu einem Modell zu geben. Entscheidend wird, ob Arbeitsabläufe so gestaltet sind, dass Agenten Daten, Tools und Berechtigungen sicher nutzen können.

Für Beschäftigte verändert sich der Skill-Mix. Wertvoller werden präzise Aufgabenformulierung, fachliche Prüfung, Prozessverständnis und die Fähigkeit, technische Hilfsarbeit sinnvoll zu delegieren. Reines Tool-Wissen altert schneller als die Fähigkeit, Arbeit in prüfbare Teilschritte zu zerlegen.

OpenAI ordnet Codex damit in einen breiteren Trend ein, der auch bei Codex für Wissensarbeit und Frontier sichtbar wird: Unternehmen bewegen sich von isolierten Chat-Interaktionen zu agentischen Workflows, die Dateien, Code, Daten und Geschäftskontext verbinden.

Wann Agenten sinnvoll eingesetzt werden

Die klare Entscheidungsregel: Ein Agent lohnt sich, wenn eine Aufgabe länger als etwa 30 Minuten dauern würde, ein überprüfbares Ergebnis hat und in klaren Grenzen ausgeführt werden kann. Dazu gehören Datenbereinigung, Code-Änderungen, strukturierte Recherche, Berichtsentwürfe, Testläufe, interne Automatisierungen und wiederkehrende Dokumentationsarbeit.

Weniger geeignet sind Aufgaben, bei denen Verantwortung, Urteil und Kontext nicht sauber delegierbar sind. Dazu zählen finale Rechtsbewertungen, Personalentscheidungen, sicherheitskritische Freigaben oder strategische Entscheidungen ohne belastbare Datenbasis. Hier kann ein Agent vorbereiten, aber nicht entscheiden.

Für die Einführung empfiehlt sich eine einfache Reihenfolge:

1. Wiederholbare Aufgaben finden: Teams sollten zuerst Prozesse auswählen, die häufig auftreten und klare Eingaben sowie Ausgaben haben.

2. Prüfpunkt einbauen: Jeder Agentenlauf braucht eine Stelle, an der Menschen Ergebnisse, Quellen, Tests oder Änderungen kontrollieren.

3. Parallelisierung nutzen: Der größte Hebel entsteht, wenn mehrere Agenten getrennte Teilaufgaben gleichzeitig bearbeiten, etwa Analyse, Prototyp, Dokumentation und Test.

4. Rollen neu schneiden: Nicht jede Aufgabe muss zur bisherigen Stellenbeschreibung passen. Agenten machen angrenzende Arbeit zugänglicher, solange Qualität und Verantwortung klar geregelt bleiben.

Der Befund aus OpenAIs Daten ist deshalb weniger, dass Codex Entwickler ersetzt. Er zeigt vielmehr, dass agentische KI Arbeitspakete vergrößert, Wartezeiten reduziert und technische Umsetzung in mehr Rollen hineinzieht. Genau darin liegt ihr wirtschaftliches Potenzial.