Interview zur neuen o1-Modellreihe mit dem Entwicklerteam

Im folgenden Interview spricht Bob McGrew, Leiter des Forschungsteams bei OpenAI, mit seinem Team über die kürzlich vorgestellte Modellserie 01 und 01 Mini. Dabei geben sie spannende Einblicke in die Entwicklung, die Funktionsweise und die Besonderheiten dieser neuen Modelle.

Bob: Was genau ist 01?

Entwickler: Mit der neuen 01-Serie starten wir eine Reihe von Modellen, die sich von früheren Versionen, wie z.B. GPT-4, in ihrem Ansatz unterscheiden. 01 ist speziell ein sogenanntes „Reasoning“-Modell, was bedeutet, dass es stärker über eine Frage nachdenkt, bevor es antwortet. Das Ziel ist es, qualitativ hochwertigere Antworten zu liefern. Wir haben aktuell zwei Modelle: 01 Preview, das einen ersten Blick auf die neue Richtung ermöglicht, und 01 Mini, eine kompaktere und schnellere Version.

Bob: Das klingt spannend! Aber was genau versteht ihr unter „Reasoning“?

Entwickler: Eine einfache Möglichkeit, Reasoning zu erklären, ist der Vergleich mit verschiedenen Aufgaben. Es gibt Fragen, auf die man sofort eine Antwort kennt, zum Beispiel „Was ist die Hauptstadt von Italien?“ – Rom, das muss man nicht lange überlegen. Bei komplexeren Aufgaben, wie dem Schreiben eines Geschäftsplans oder dem Lösen eines Rätsels, braucht man jedoch Zeit, um nachzudenken. Hier geht es darum, Zeit in bessere Ergebnisse umzuwandeln und genau das ermöglicht 01 durch tiefergehendes Reasoning.

Bob: Wie lange arbeitet ihr schon an diesem Modell?

Entwickler: Schon eine ganze Weile. Ursprünglich waren wir sehr von den Ergebnissen von AlphaGo inspiriert und haben uns intensiv mit Deep Reinforcement Learning beschäftigt. Doch mit der Zeit haben wir erkannt, dass wir durch die Kombination von Reinforcement Learning und überwachten Lernansätzen noch mehr erreichen können. Es gab viele kleine Meilensteine und schliesslich führten all diese Bemühungen zur Entwicklung von 01.

Bob: Gab es während dieser Zeit einen besonderen „Aha-Moment“?

Entwickler: Oh ja, definitiv! Einer der Schlüsselmomente war, als wir das Modell mit mehr Rechenkapazität trainierten und erstmals beobachteten, dass es nicht nur kohärente Gedankengänge erzeugte, sondern auch wirklich begann, komplexe Ketten von Überlegungen zu formulieren. Ein anderer grosser Moment war, als wir entdeckten, dass das Modell durch Reinforcement Learning selbstständig Gedankenketten entwickeln und verfeinern konnte, anstatt sich auf vorgegebene menschliche Gedankengänge zu stützen. Das war ein echter Wendepunkt.

Bob: Ihr habt sicher auch einige Hürden auf dem Weg bewältigen müssen. Was waren die grössten Herausforderungen?

Entwickler: Das Training von grossen Modellen ist unglaublich anspruchsvoll. Es gibt unzählige Faktoren, die schiefgehen können und gefühlt sind wir ständig damit beschäftigt, die Modelle auf dem schmalen Grat zwischen Erfolg und Misserfolg zu halten. Stellen Sie sich vor, Sie lenken eine Rakete zum Mond: Ein kleiner Winkel, der nicht stimmt und Sie verpassen das Ziel. So ähnlich ist es auch hier – das richtige Gleichgewicht zu finden, ist extrem schwierig.

Bob: Das klingt nach sehr viel Geduld und harter Arbeit. Gab es bestimmte Tests, mit denen ihr die Modelle herausgefordert habt?

Entwickler: Ja, ich habe eine Zeit lang immer wieder die Frage „Wie viele Stunden sind in einem Jahr?“ gestellt. Es klingt simpel, aber ältere Modelle wie GPT-3 haben da oft versagt. 01 hat diese Art von Fragen nach einem Jahr intensiver Arbeit endlich zuverlässig gemeistert. Da hätte ich mir fast gewünscht, wir hätten es einfach manuell hartkodiert!

Bob: Wie nutzt ihr selbst das Modell im Alltag?

Entwickler: Ich setze es viel beim Programmieren ein. Durch den Einsatz von 01 kann ich mich auf die Definition von Problemen konzentrieren, anstatt selbst den Code zu schreiben. Auch beim Debugging hilft es enorm. Ich gebe dem Modell die Fehlermeldung und es gibt sofort sinnvolle Ansätze, was ich als Nächstes versuchen könnte.

Entwickler: Für mich ist es ein grossartiger Brainstorming-Partner. Es hilft, Struktur in unklare Ideen zu bringen und verschiedene Lösungsansätze zu erarbeiten.

Bob: Ihr habt auch 01 Mini entwickelt. Was war die Motivation dahinter?

Entwickler: 01 Mini soll die 01-Philosophie zu einem breiteren Publikum bringen. Es ist wesentlich günstiger in der Nutzung und schneller. Obwohl es nicht den gesamten Wissensumfang von 01 Preview hat, behält es den Fokus auf starkes Reasoning bei. Das Ziel war es, eine kostengünstige, aber intelligente Lösung zu schaffen, die dennoch viele der Stärken des grossen Modells bietet.

Bob: Ihr habt viel über technische Herausforderungen gesprochen. Was motiviert euch, weiterzumachen?

Entwickler: Für mich persönlich ist es unglaublich faszinierend, wie sich Intelligenz in verschiedenen Formen ausdrückt. Mit 01 schaffen wir die Grundlage für Modelle, die noch viel länger und tiefer über Probleme nachdenken können – nicht nur Minuten oder Stunden, sondern vielleicht irgendwann Monate oder Jahre. Das ist für mich eine spannende Vorstellung.

Entwickler: Ich liebe es, wenn Technologie den Alltag der Menschen verbessert. Wenn unsere Modelle durch Reasoning wirklich praktische Probleme lösen können, dann haben wir etwas Grossartiges erreicht.

Bob: Ich spüre die Leidenschaft bei euch allen. Gibt es noch etwas, das ihr den Zuhörern mit auf den Weg geben möchtet?

Entwickler: Jeder von uns hat viel Herzblut in dieses Projekt gesteckt. Auch wenn wir hier über Algorithmen und Hardware sprechen, sind es am Ende immer die Menschen und die Zusammenarbeit, die solche Innovationen ermöglichen. Das sollte man nie vergessen.

Bob: Ein sehr schöner Abschluss. Vielen Dank, dass ihr euch die Zeit genommen habt und herzlichen Glückwunsch zur Veröffentlichung von 01!

Entwickler: Danke, Bob!

Das vollständige Interview mit dem Entwicklerteam finden Sie auf YouTube in englischer Sprache unter folgendem Link: Interview zur neuen 01-Modellreihe