Das OpenAI Safety Fellowship ist laut OpenAI ein befristetes Pilotprogramm für externe Forschende und Praktiker, die konkrete, technisch belastbare Arbeit zu KI-Sicherheit und Alignment liefern wollen. Laufzeit ist vom 14. September 2026 bis 5. Februar 2027, Bewerbungen sind bis 3. Mai 2026 möglich, Rückmeldungen sollen bis 25. Juli 2026 erfolgen. Ziel ist ein substanzielles Ergebnis wie Paper, Benchmark oder Datensatz, mit Mentoring, Stipendium und Rechenressourcen.
Übersicht:
Was das OpenAI Safety Fellowship konkret ist
Das Programm richtet sich an externe Forschende, Engineers und Praktiker, die an Sicherheitsproblemen arbeiten, die sowohl für aktuelle als auch für zukünftige KI-Systeme relevant sind. Geplant ist eine Kohorte mit enger Anbindung an Mentoren von OpenAI sowie Austausch mit Peers. Arbeitsplätze sind in Berkeley bei Constellation vorgesehen, Remote-Arbeit ist ebenfalls möglich.
Erwartet wird am Ende kein allgemeines Positionspapier, sondern ein greifbares Artefakt, etwa ein wissenschaftlicher Beitrag, ein messbarer Benchmark oder ein nutzbarer Datensatz. Laut OpenAI ist das Fellowship als Pilot angelegt, also als Testlauf für Format, Themenfokus und Wirkung. Der Originalaufruf steht auf openai.com.
Welche Forschungsschwerpunkte gesucht werden
OpenAI nennt mehrere Themenfelder, entscheidend ist dabei die Mischung aus Relevanz, technischer Qualität und empirischer Erdung. Gemeint ist Forschung, die in Daten, Messverfahren oder nachvollziehbaren Experimenten verankert ist, nicht nur in plausiblen Argumenten.
Genannte Prioritäten lassen sich als Arbeitsliste lesen:
- Sicherheits-Evaluation: Tests, die Modellrisiken zuverlässig sichtbar machen, idealerweise reproduzierbar und als Benchmark nutzbar.
- Ethik: Analysen zu fairen, verantwortbaren Systementscheidungen, auch im Zusammenspiel mit Produktanforderungen.
- Robustheit: Methoden, die Fehlverhalten unter Stressbedingungen reduzieren, etwa bei adversarialen Prompts oder Verteilungsverschiebungen.
- Skalierbare Mitigations: Schutzmechanismen, die mit Modellgröße und Nutzungsszenarien mitwachsen.
- Privacy-preserving Safety: Sicherheit messen und verbessern, ohne unnötig Nutzerdaten offenzulegen.
- Agentic Oversight: Aufsicht über agentische Systeme, also Systeme, die Ziele verfolgen und mehrstufig handeln können.
- High-severity Misuse: Missbrauch mit besonders hohem Schadenspotenzial, inklusive klarer Bedrohungsmodelle.
Wichtig ist außerdem eine Anschlussfähigkeit an die Community, also Outputs, die andere Teams prüfen, weiterverwenden oder in Folgearbeit überführen können.
Bewerbung, Fristen und formale Erwartungen
Die Bewerbung ist laut OpenAI ab sofort offen und endet am 3. Mai 2026. Benachrichtigungen an erfolgreiche Bewerber sollen bis 25. Juli 2026 erfolgen. Programmlaufzeit ist vom 14. September 2026 bis 5. Februar 2027.
Für die Bewerbung werden Referenzschreiben verlangt. OpenAI betont, dass nicht formale Titel im Vordergrund stehen, sondern Forschungsfähigkeit, technisches Urteilsvermögen und die Fähigkeit, Projekte sauber umzusetzen. Die Bewerbung läuft über ein Formular unter airtable.com.
Fragen zum Prozess sollen laut OpenAI an openaifellows@constellation.org gehen.
Mentoring, Geld und Compute, was enthalten ist
Zum Fellowship gehören ein monatliches Stipendium, Compute-Unterstützung und laufendes Mentoring. Zusätzlich sollen Fellows je nach Bedarf API-Credits und weitere Ressourcen erhalten. Gleichzeitig stellt OpenAI klar, dass Fellows keinen internen Systemzugang bekommen.
Für die praktische Arbeitsumgebung ist Constellation als Standort in Berkeley genannt, weitere Informationen zu Constellation finden sich unter constellation.org. Der Mix aus gemeinsamer Arbeitsumgebung und Remote-Option ist ein typisches Design für Programme, die Tempo durch Peer-Druck erhöhen, aber die Rekrutierung nicht auf eine Region begrenzen wollen.
Praxisbeispiel, Entscheidungsregel und Markteinordnung
Praxisbeispiel, so sieht ein starker Output aus
Ein realistisches Projekt wäre ein Evaluationspaket für agentische Systeme, das systematisch misst, wann ein Agent durch Prompt Injection zu Datenabfluss oder unerwünschten Aktionen gebracht werden kann. Dazu gehören ein reproduzierbares Testset, klare Erfolgsmetriken und dokumentierte Baselines, damit andere Teams die Ergebnisse nachfahren können. Der Output kann als Benchmark veröffentlicht werden, statt nur als Einzelanalyse zu enden.
Entscheidungsregel, ob sich eine Bewerbung lohnt
- Bewerben, wenn ein Thema innerhalb von sechs Monaten in ein überprüfbares Artefakt übersetzbar ist, also Benchmark, Datensatz oder Paper mit messbaren Ergebnissen.
- Nicht bewerben, wenn der Kernfortschritt von internem Systemzugang abhängt oder wenn das Projekt ohne Compute und Mentoring keinen klaren Pfad zu reproduzierbaren Resultaten hat.
Mini-Modell zur Einordnung im Markt
Das Fellowship ist als Talent-Brücke positioniert, zwischen unabhängiger Sicherheitsforschung und den Anforderungen großer Modellanbieter. Ein nützliches Raster ist das Dreieck aus Technologie, Talent und Tempo, gute Fellowship-Projekte sitzen in der Mitte: technisch scharf genug, dass es nicht nur Governance bleibt, aber so konkret, dass innerhalb der Laufzeit messbare Fortschritte entstehen.
Wer schon im Sicherheitsökosystem aktiv ist, kann ergänzend OpenAIs jüngere Sicherheitsinitiativen als Kontext lesen, etwa das Safety Bug Bounty Programm auf openai.com.

