OpenAI stellt Codex vor - ChatGPT Deutsch

Die neue KI-Revolution für parallele Softwareentwicklung in der Cloud

Mit Codex präsentiert OpenAI einen innovativen, cloudbasierten Software-Agenten, der zahlreiche Aufgaben im Bereich Softwareentwicklung automatisiert und beschleunigt. Der Dienst ist ab sofort für ChatGPT Pro, Team und Enterprise verfügbar; Plus-Nutzer erhalten in Kürze Zugang.

Was ist Codex?
Funktionsweise und Anwendung
Trainingsdaten und Leistung
Sicherheit und Vertrauenswürdigkeit
Missbrauchsschutz und sichere Ausführung
Anwendungsbeispiele aus der Praxis
Codex CLI und Entwicklerzugang
Verfügbarkeit, Preise und Einschränkungen
Ausblick und zukünftige Entwicklungen
Weitere Informationen und Systemnachricht

Was ist Codex?

Codex ist ein leistungsstarker, cloudbasierter Software-Agent, der von OpenAI entwickelt wurde, um Entwickler bei vielfältigen Aufgaben zu unterstützen. Das System kann Features implementieren, Fragen zur Codebasis beantworten, Fehler beheben und Pull Requests zur Überprüfung vorschlagen. Jede Aufgabe wird dabei in einer isolierten Cloud-Umgebung durchgeführt, die automatisch mit dem jeweiligen Repository geladen wird.

Codex

Basis von Codex ist das Modell codex-1, eine speziell für Software Engineering optimierte Variante von OpenAI o3. Das Modell wurde mittels Reinforcement Learning an realen Programmieraufgaben trainiert und orientiert sich dabei eng an menschlichen Codestilen und Pull-Request-Präferenzen.

Funktionsweise und Anwendung

Codex ist direkt in der ChatGPT-Oberfläche zugänglich. Neue Aufgaben werden einfach per Texteingabe über die Seitenleiste gestartet. Fragen zum Code können mit „Ask“ adressiert werden, während Entwicklungsaufgaben mit „Code“ ausgelöst werden. Jede Aufgabe läuft unabhängig in einer eigenen Sandbox, die mit allen relevanten Dateien und Abhängigkeiten des Repositories vorkonfiguriert ist.

Was kann Codex?

Paralleles Entwerfen von GitHub-PRs: Codex kann Pull Requests (PRs) für Bugfixes, Dokument-Updates oder kleinere Features automatisiert erstellen und parallel bearbeiten.
Navigation und Analyse der Codebasis: Codex navigiert durch deine gesamte Codebasis, findet Bugs, prüft Code und macht gezielte Verbesserungsvorschläge.
Automatisierte Lint-Prüfungen und Tests: Führt Linter, Typprüfungen sowie Unit- und Integrationstests durch – inklusive dem Einrichten erforderlicher Abhängigkeiten.
Unterstützung großer Codebasen: Codex arbeitet mit einem neuen, besonders für große Projekte und komplexe Codebasen geeigneten Programmiermodell.
Dateien lesen und bearbeiten: Codex kann Dateien direkt einsehen, verändern und im Kontext der Aufgabe bearbeiten.
Detaillierte Planung und Aufgabenmanagement: Er erstellt Optimierungsvorschläge, plant Arbeitsschritte und ordnet Aufgaben entsprechend zu (z. B. „Empfehle 3 Optimierungen und erstelle einen Aufgabenplan“).
Transparenter Workflow und Live-Fortschritt: Die Bearbeitungsdauer einzelner Aufgaben variiert je nach Komplexität, Fortschritte und Änderungen sind jederzeit live einsehbar.
Nachvollziehbare Dokumentation: Alle Änderungen werden in einer isolierten Umgebung committet und durch Terminal-Logs sowie Testergebnisse transparent dokumentiert.
Integration und Review-Prozesse: Entwickler können die Resultate überprüfen, Änderungen anfordern, Pull Requests öffnen oder die Ergebnisse ins lokale Umfeld übernehmen.
Konfigurierbare Entwicklungsumgebung: Die Umgebung kann so angepasst werden, dass sie der realen Entwicklungsumgebung möglichst genau entspricht.

Eine Besonderheit sind AGENTS.md-Dateien: Sie geben Codex gezielte Instruktionen, wie sich das System im Projekt verhalten soll – vergleichbar mit einem erweiterten README. Hier lassen sich z. B. Testbefehle oder spezifische Arbeitsweisen definieren. Wie menschliche Entwickler profitiert auch Codex von klarer Dokumentation und zuverlässigen Testumgebungen.

Trainingsdaten und Leistung

Codex wurde mit einer Vielzahl realer Softwareentwicklungsaufgaben trainiert und erreicht bereits ohne spezifische Projektanpassungen eine hohe Lösungsgüte. Interne Benchmarks belegen, dass das Modell Aufgaben präzise nach menschlichen Standards umsetzt, Anweisungen exakt befolgt und automatisiert Tests durchführt, bis ein positives Ergebnis erreicht ist.

Auf der OpenAI-internen SWE-Benchmark erreicht codex-1 eine signifikant höhere Genauigkeit als frühere Modelle. Details und konkrete Ergebnisse können im englischen Beitrag von OpenAI nachgelesen werden.

Sicherheit und Vertrauenswürdigkeit

Codex wird zunächst als Forschungs-Vorschau bereitgestellt. Das Systemdesign legt großen Wert auf Sicherheit und Transparenz: Sämtliche Aktionen werden mit Terminal-Logs und Testergebnissen belegt, sodass Nutzer die Arbeitsweise des Agenten jederzeit nachvollziehen können. Bei Unsicherheiten oder fehlgeschlagenen Tests informiert Codex explizit und gibt Hinweise zum weiteren Vorgehen.

Trotz aller Automatisierung bleibt es unerlässlich, alle von Codex generierten Änderungen vor dem Merge oder der Ausführung manuell zu überprüfen.

Missbrauchsschutz und sichere Ausführung

Die Sicherung gegen missbräuchliche Nutzung, insbesondere bei Aufgaben wie Malware-Entwicklung, ist ein zentrales Anliegen. Codex wurde so trainiert, dass es gezielt Anfragen zur Entwicklung schädlicher Software ablehnt und gleichzeitig legitime Aufgaben – auch im Bereich Low-Level-Engineering – unterstützt. Sicherheitsrichtlinien wurden ausgebaut und durch umfassende Evaluierungen ergänzt, die auch im System Card Addendum dokumentiert sind.

Während der Bearbeitung arbeitet Codex ausschließlich in einer isolierten Cloud-Containerumgebung ohne Internetzugang. Zugriff besteht lediglich auf das bereitgestellte Repository und vorkonfigurierte Abhängigkeiten; externe Services bleiben unerreichbar.

Anwendungsbeispiele aus der Praxis

OpenAI-intern wird Codex bereits intensiv genutzt, etwa um repetitive Aufgaben wie Refactoring, Testgenerierung oder Dokumentationsentwürfe auszulagern. Teams nutzen die Automatisierung, um schneller zu liefern und den Fokus auf anspruchsvolle Aufgaben zu richten. Auch externe Partner erproben Codex bereits:

Cisco evaluiert Codex für beschleunigte Feature-Entwicklung und strategische Produktinnovation.
Temporal setzt Codex zur Fehlerbehebung, Testautomatisierung und Code-Refaktorisierung ein.
Superhuman nutzt Codex, um Testabdeckung und kleinere Integrationsaufgaben schneller zu erledigen – auch Produktmanager können so erste Codeänderungen beitragen.
Kodiak beschleunigt mit Codex die Entwicklung seines autonomen Fahr-Stacks, etwa durch Debugging-Tools und Testoptimierung.

Basierend auf diesen Erfahrungen empfiehlt OpenAI, klar abgegrenzte Aufgaben an mehrere Codex-Instanzen zu vergeben und verschiedene Prompt-Strategien zu testen, um das Potenzial des Systems maximal auszuschöpfen.

Codex CLI und Entwicklerzugang

Parallel zur Cloudlösung steht seit Kurzem die Codex CLI zur Verfügung – ein schlanker Open-Source-Agent für die Kommandozeile. Er integriert Modelle wie o3 und o4-mini direkt ins lokale Entwickler-Setup. Neu ist eine speziell optimierte Variante (codex-mini-latest), die für geringe Latenz und schnelle Code-Interaktionen ausgelegt ist. Dieses Modell ist sowohl als Standard in der CLI als auch via API verfügbar und wird regelmäßig weiterentwickelt.

Die Anmeldung für Codex CLI wurde vereinfacht: Statt manueller API-Token-Konfiguration genügt nun die Anmeldung mit dem ChatGPT-Konto. Pro- und Plus-Nutzer erhalten außerdem temporär kostenlose API-Guthaben (bis zu 50 USD) für einen erleichterten Einstieg.

Verfügbarkeit, Preise und Einschränkungen

Ab sofort wird Codex für ChatGPT Pro, Enterprise und Team weltweit ausgerollt. Plus- und Edu-Nutzer folgen in Kürze. Der Dienst ist zunächst ohne Zusatzkosten nutzbar; in den kommenden Wochen werden Nutzungsbeschränkungen und flexible Preismodelle eingeführt, bei denen zusätzlicher Verbrauch bedarfsgerecht hinzugebucht werden kann.

Das Modell codex-mini-latest ist für Entwickler über die Responses API erhältlich und wird mit 1,50 USD pro 1 Mio. Eingangstoken bzw. 6 USD pro 1 Mio. Ausgangstoken abgerechnet – inklusive 75% Rabatt auf wiederholte Prompts.

Als Forschungs-Vorschau fehlen Codex aktuell noch einige Funktionen wie Bildinputs für Frontend-Aufgaben oder die Möglichkeit, während laufender Aufgaben direkt einzugreifen. Die Arbeit mit einem entfernten Agenten kann zudem mehr Zeit in Anspruch nehmen als interaktives Editieren, was etwas Umgewöhnung erfordert.

Ausblick und zukünftige Entwicklungen

OpenAI arbeitet an einer umfassenden Tool-Suite, die sowohl Echtzeit-Kollaboration als auch asynchrone Delegation unterstützt. Die Vision: Entwickler übernehmen die Aufgaben, die sie selbst gestalten möchten, und delegieren alles Weitere an smarte KI-Agenten – für mehr Geschwindigkeit und Fokus. Künftig sollen Entwickler Codex-Agenten auch während laufender Aufgaben gezielt steuern, gemeinsam Strategien entwickeln und proaktive Statusupdates erhalten können. Geplant sind außerdem tiefere Integrationen in bestehende Tools wie Issue Tracker, CI-Systeme und ChatGPT Desktop.

Die Integration von KI-Agenten wie Codex verändert die Softwareentwicklung grundlegend und eröffnet neue Möglichkeiten für Teams und Einzelentwickler. OpenAI erforscht gemeinsam mit Partnern die Auswirkungen auf Arbeitsabläufe und Skill-Entwicklung und setzt dabei auf einen verantwortungsvollen und iterativen Ansatz.

Weitere Informationen und Systemnachricht

Für weiterführende Details und Benchmarks empfiehlt sich der englische Beitrag von OpenAI. Um die Arbeitsweise von Codex besser zu verstehen, hat OpenAI außerdem die Systemnachricht von codex-1 veröffentlicht. Diese enthält u. a. Vorgaben für Git-Workflows, die Nutzung von AGENTS.md-Dateien und die genaue Dokumentation aller Arbeitsschritte, sodass Entwickler den Agenten auch in eigenen Prozessen gezielt anpassen können.