OpenAI drängt auf gemeinsame Standards für fortgeschrittene KI

OpenAI unterstützt mit der Appia Foundation einen neuen Versuch, Sicherheits- und Prüfstandards für fortgeschrittene KI praktisch nutzbar zu machen. Der Kern: Regierungen, Unternehmen und unabhängige Prüfer sollen KI-Systeme nach vergleichbaren Kriterien bewerten können, statt sich auf schwer vergleichbare Selbstauskünfte einzelner Anbieter zu verlassen.

Übersicht:

Warum gemeinsame Standards für fortgeschrittene KI nötig werden

Leistungsfähigere KI-Modelle können Cyberabwehr verbessern, Forschung beschleunigen und Fachwissen breiter verfügbar machen. Gleichzeitig wachsen die Risiken, wenn Fähigkeiten falsch eingeschätzt werden, Schutzmaßnahmen lückenhaft bleiben oder Behörden nicht genug Informationen bekommen, um im Ernstfall zu reagieren.

OpenAI beschreibt Standards deshalb nicht als Formalie, sondern als Voraussetzung für Vertrauen. Je stärker KI-Systeme aus Modellen, Recheninfrastruktur, Tool-Zugriffen und Anwendungen verschiedener Anbieter bestehen, desto schwieriger wird die Frage, wer welche Sicherheitsannahme geprüft hat.

Die zentrale Lücke liegt zwischen allgemeinen Prinzipien und konkreter Nachprüfung. Viele Organisationen einigen sich auf Begriffe wie Sicherheit, Robustheit oder Verantwortung, doch Prüfer brauchen messbare Kriterien: Welches System wurde getestet, unter welchen Bedingungen, mit welchen Werkzeugen und mit welchen Gegenchecks?

Was die Appia Foundation leisten soll

Die Appia Foundation der Linux Foundation soll offene und modulare Spezifikationen entwickeln. Modular bedeutet hier: Die Vorgaben sollen nicht nur für ein einzelnes Modell gelten, sondern entlang der KI-Wertschöpfungskette einsetzbar sein, etwa bei Modelltests, Infrastruktur, Anwendungen und externen Integrationen.

Appia soll internationale Standards und bestehende Governance-Rahmen in praktische Bewertungskriterien übersetzen. Aus abstrakten Vorgaben werden damit prüfbare Anforderungen, die Dritte nachvollziehen und wiederverwenden können.

OpenAI sieht darin eine Art gemeinsame technische Sprache. Wenn nationale Behörden, internationale Institutionen und unabhängige Prüforganisationen nach kompatiblen Methoden arbeiten, können sie Ergebnisse eher anerkennen, vergleichen und für politische Entscheidungen nutzen.

Die fehlende Vertrauensschicht

Die wichtigste Funktion von Appia liegt in der Konformitätsprüfung. Dritte sollen belegen können, ob ein KI-System bestimmte Anforderungen erfüllt. Das ist besonders relevant, wenn ein Modell von Anbieter A stammt, die Cloud-Infrastruktur von Anbieter B betrieben wird und die fertige Anwendung bei Anbieter C entsteht.

Ein gutes Prüfergebnis muss dann mehr leisten als ein Häkchen auf einer Checkliste. Es muss erklären, was genau geprüft wurde, welche Annahmen galten und ob die Evidenz auch in einem anderen Land oder bei einem anderen Aufsichtsverfahren brauchbar ist.

Wie Prüfungen belastbarer werden

OpenAI verknüpft Appia mit mehreren bereits bestehenden Initiativen. Dazu zählt der eigene Blueprint für demokratische Governance von Frontier AI, der unter anderem einen stabileren US-Rahmen, eine stärkere Rolle von CAISI und eine breitere Resilienzstrategie der Regierung fordert.

CAISI steht für Center for AI Standards and Innovation. OpenAI argumentiert, dass starke nationale Institutionen technische Expertise aufbauen, Frontier-Systeme bewerten und ein unabhängiges Prüfökosystem unterstützen können. International sollen solche Institutionen dann Methoden abstimmen, Risikobefunde teilen und bei Vorfällen koordinierter reagieren.

Für externe Prüfungen nennt OpenAI mehrere Mindestinformationen, die offengelegt werden sollten:

Getestetes System: Prüfer müssen wissen, welche Modellversion, welche Umgebung und welche Produktkonfiguration untersucht wurden.
Tool-Zugriff: Entscheidend ist, ob ein Modell nur Text ausgibt oder zusätzlich Code ausführen, Webdienste nutzen oder externe Systeme steuern kann.
Testaufbau: Die sogenannte Evaluation-Harness beschreibt, wie Tests technisch ausgeführt, protokolliert und wiederholt werden.
Fähigkeitsauslösung: Prüfer müssen zeigen, mit welchen Methoden sie versucht haben, kritische Fähigkeiten sichtbar zu machen.
Validierung: Ergebnisse brauchen Gegenprüfungen, damit ein einzelner Testlauf nicht zu stark gewichtet wird.

OpenAI verweist außerdem auf Kooperationen mit US CAISI und UK AISI. Diese Tests zu Frontier-Fähigkeiten und Schutzmaßnahmen gegen biologischen Missbrauch hätten laut OpenAI zu konkreten Verbesserungen an den eigenen Systemen geführt.

Vom internen Sicherheitsrahmen zur öffentlichen Kontrolle

Der Preparedness Framework beschreibt, wie OpenAI besonders schwere Risiken fortgeschrittener KI intern einordnet und handhabt. Dazu gehören Schwellenwerte, Sicherheitsprozesse und Entscheidungen darüber, wann zusätzliche Schutzmaßnahmen nötig werden.

Das Frontier Governance Framework übersetzt Teile dieser Praxis in ein öffentliches Governance-Dokument. Es behandelt unter anderem Risikobewertung, Modellberichte, Sicherheitskontrollen, Vorfallreaktion und die Einbindung externer Fachleute.

Appia setzt an der nächsten Stufe an: Diese Praktiken sollen nicht nur innerhalb eines Anbieters funktionieren, sondern zwischen Organisationen, Rechtsräumen und Lieferketten anschlussfähig werden.

Was das in der Praxis bedeutet

Ein Praxisbeispiel zeigt den Nutzen: Ein Krankenhaus nutzt künftig eine KI-Anwendung zur Analyse medizinischer Studien. Das zugrunde liegende Modell kommt von einem KI-Anbieter, die Anwendung von einem Softwarehaus, die Datenverarbeitung läuft in einer regulierten Cloud. Ohne gemeinsame Standards müsste jede Stelle eigene Prüfberichte interpretieren. Mit kompatiblen Spezifikationen kann ein Prüfer nachvollziehbar belegen, welche Komponente welche Sicherheitsanforderung erfüllt.

Die Entscheidungsregel lautet: Je mehr ein KI-System externe Tools nutzt, sensible Entscheidungen beeinflusst oder in kritische Infrastruktur eingebunden ist, desto stärker braucht es unabhängige, wiederholbare und grenzüberschreitend verständliche Prüfungen. Für einfache Textfunktionen reicht meist eine leichtere Kontrolle, für agentische Systeme mit Handlungsspielraum nicht.

Als Mini-Modell lässt sich OpenAIs Ansatz auf drei Begriffe verdichten:

Prüfen: Fähigkeiten, Grenzen und Risiken müssen unter realistischen Bedingungen getestet werden.
Belegen: Ergebnisse brauchen klare Dokumentation, damit Dritte sie nachvollziehen können.
Anerkennen: Institutionen sollen vertrauenswürdige Evidenz über Länder und Organisationen hinweg nutzen können.

Marktstrategisch geht es damit um mehr als Sicherheit. Standards entscheiden, ob fortgeschrittene KI als lose Sammlung proprietärer Systeme wächst oder als überprüfbare Infrastruktur, ähnlich wie bei Cloud-Sicherheit, Identität oder Webprotokollen.

OpenAI ordnet Appia deshalb in ein breiteres Standardisierungsnetz ein. Dazu gehören Arbeiten bei ISO und IEC zu künstlicher Intelligenz, das NIST AI Safety Institute Consortium, das Frontier Model Forum, die Linux Foundation Agentic AI Foundation, die Coalition for Secure AI, die Coalition for Content Provenance and Authenticity, die Internet Engineering Task Force und die FIDO Alliance.

Der politische Punkt bleibt: Nationale Kontrolle und internationale Zusammenarbeit sind keine Gegensätze. Wenn Staaten eigene technische Kompetenz aufbauen und zugleich kompatible Prüfmethoden akzeptieren, können sie schneller auf Risiken reagieren, ohne Innovation vollständig in geschlossene Sonderwege zu drängen.