Agents SDK bekommt native Sandboxes und besseren Harness

Das Update des Agents SDK zielt darauf, Agenten produktionsreif zu machen, die Dateien prüfen, Befehle ausführen und Code ändern, ohne dabei außerhalb einer kontrollierten Sandbox zu laufen. Kernidee ist eine standardisierte Laufzeit, die auf die Arbeitsweise von OpenAI Modellen zugeschnitten ist, kombiniert mit nativer Sandbox Ausführung für mehr Sicherheit und verlässlichere Langläufer. openai.com

Übersicht:

Was das Update für Entwickler sofort bringt

Das Unternehmen, laut OpenAI, erweitert das Agents SDK um zwei zentrale Fähigkeiten, einen stärker ausgebauten Harness für den Agentenlauf und eine eingebaute Sandbox Ebene. Damit sollen Agenten nicht nur antworten, sondern belastbar über viele Schritte hinweg arbeiten, mit Dateien, Tools und Befehlen, und dabei in einem kontrollierbaren Arbeitsraum bleiben. openai.com

Praktisch heißt das, weniger Eigenbau rund um Ausführung, Dateizugriffe und Wiederanlauf, und mehr Fokus auf Fachlogik. Die neuen Funktionen sind allgemein über die API verfügbar, abgerechnet wird nach Standard API Logik über Tokens und Tool Nutzung. openai.com

Offizielle Einordnung und Details stehen im Release Beitrag The next evolution of the Agents SDK sowie im Entwickler Leitfaden Agents SDK. openai.com

Warum bestehende Agent Frameworks Teams ausbremsen

Im Übergang von Demo zu Betrieb zeigt sich ein wiederkehrendes Muster, entweder ist das Framework flexibel, nutzt aber Modellfähigkeiten nicht optimal, oder es ist nah am Modell, bietet aber zu wenig Einblick in den Laufzeit Unterbau, oder es ist bequem als Managed API, schränkt aber Ausführungsort und Datenzugriff stark ein. Genau diese Trade offs adressiert das Update mit einer Standard Laufzeit plus Sandbox Schicht. openai.com

Ansatz	Typische Stärke	Typische Grenze im Betrieb
Modellunabhängiges Framework	Hohe Portabilität, viele Integrationen	Mehr Eigenarbeit für Laufzeit, geringere Ausnutzung neuer Modell Patterns
Provider SDK	Modellnah, oft bessere Reliability bei komplexen Tool Flows	Riskanter Eigenbau, wenn Observability und Ausführung nicht sauber getrennt sind
Managed Agent API	Schnell deploybar, wenig Infrastruktur	Weniger Kontrolle über Datenpfade, Ort der Ausführung, Sicherheitsgrenzen

Mini Modell für die Einordnung

Als Faustbild funktioniert ein Dreieck aus Portabilität, Modellnähe und Kontrolle. Das Update versucht, Modellnähe und Kontrolle gleichzeitig zu erhöhen, ohne Teams in eine starre Betriebsform zu drücken. openai.com

Welche Bausteine den Agentenlauf stabiler machen

Der Harness, also die standardisierte Schleife aus Planen, Tool Aufrufen, Prüfen und Weiterarbeiten, wird ausgebaut. Genannt werden unter anderem konfigurierbares Memory, Orchestrierung, die Sandboxes versteht, sowie Dateisystem Tools im Stil von Codex, damit Agenten verlässlich über Dateien und Werkzeuge arbeiten können. openai.com

Was konkret als primitives Zusammenspiel gedacht ist

Statt einer monolithischen Lösung setzt das SDK auf Bausteine, die sich kombinieren lassen:

Tool Anbindung per MCP, um Tools standardisiert anzuschließen. MCP
Progressive Disclosure per Skills, damit Kontext erst dann geladen wird, wenn er gebraucht wird. Skills agentskills.io
Projektregeln per AGENTS.md, als feste Stelle für Agenten Anweisungen im Repo. AGENTS.md github.com
Befehlsausführung per Shell Tool, für kontrollierte Command Runs. Shell Tool platform.openai.com
Dateiänderungen per Apply Patch, um Änderungen strukturiert und nachvollziehbar einzuspielen. Apply Patch Tool platform.openai.com

Wie Sandboxes und Manifest das Chaos beenden

Viele Agenten scheitern nicht am Modell, sondern am fehlenden, reproduzierbaren Arbeitsraum, also Dateien, Abhängigkeiten, Tooling, Output Ordner, alles sauber abgegrenzt. Das Update bringt dafür native Sandbox Ausführung, optional mit eigenen Sandboxes oder mit eingebauten Integrationen zu Anbietern wie Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel. openai.com

Neu ist zudem ein Manifest als Abstraktion, um den Workspace portabel zu beschreiben, inklusive Mounts, Output Pfaden und Datenquellen aus Object Storage, genannt werden unter anderem AWS S3, Google Cloud Storage, Azure Blob Storage und Cloudflare R2. Der Effekt ist ein vorhersehbarer Ort für Inputs und Outputs, vom lokalen Prototyp bis zur Produktion. openai.com

Weshalb Trennung von Harness und Compute zählt

Agenten Systeme sollten so geplant werden, als kämen Prompt Injection und Datenabflussversuche garantiert. Die Trennung von Harness und Compute reduziert die Chance, dass Secrets in Umgebungen landen, in denen modellgenerierter Code läuft. openai.com

Zusätzlich verbessert das die Robustheit, weil Runs nicht am Leben eines Containers hängen, und es unterstützt Skalierung, weil Sandboxes nur bei Bedarf gestartet, parallel genutzt und für Teilaufgaben isoliert werden können. OpenAI beschreibt dafür Snapshotting und Rehydration, also Checkpoints, die einen Run nach Ausfall in einer frischen Umgebung fortsetzen lassen. openai.com

Wie das im Alltag aussieht, mit klarer Regel

Praxisbeispiel: Ein Due Diligence Agent bekommt einen kleinen Datenraum als gemountetes Verzeichnis, eine harte Arbeitsanweisung, nur diese Dateien zu verwenden, und den Auftrag, Kennzahlen zweier Geschäftsjahre zu vergleichen. Statt dass der Agent frei im System sucht, arbeitet er im begrenzten Workspace, liest eine Markdown Tabelle, rechnet Differenzen, schreibt Ergebnisdateien in einen Output Ordner, und belegt Aussagen mit Dateinamen. Genau dieses Muster wird im Release als Beispiel für kontrollierte Beweisführung beschrieben. openai.com

Entscheidungsregel für die Umsetzung

Wenn ein Agent Code ausführen oder Dateien verändern darf, dann</b gehört die Ausführung in eine Sandbox, nicht in den App Prozess.

Wenn</b Credentials nötig sind, dann</b sollten sie im Harness bleiben, nicht im Compute Kontext.

Wenn</b ein Run länger als wenige Minuten dauert oder viele Tools koordiniert, dann</b sollten Checkpoints und Wiederanlauf mitgedacht werden.

Kurzer Realitätscheck aus der Praxis

Ein Testkunde, laut OpenAI Oscar Health, berichtet sinngemäß, dass das Update eine zuvor zu fragile Automatisierung klinischer Akten erst zuverlässig genug für den produktiven Einsatz gemacht habe, insbesondere beim sauberen Abgrenzen einzelner Begegnungen in langen, komplexen Dokumenten. Das ist ein typisches Agenten Problem, weniger Extraktion, mehr strukturierte Interpretation über viele Seiten hinweg. openai.com

Verfügbarkeit und Roadmap

Die neuen Fähigkeiten sind laut OpenAI allgemein über die API nutzbar. Startpunkt ist Python, TypeScript Unterstützung ist für eine spätere Version angekündigt, außerdem werden zusätzliche Fähigkeiten wie Code Mode und Subagents genannt. openai.com