OpenAI baut eigenen Inferenzchip für große Sprachmodelle

OpenAI und Broadcom haben mit Jalapeño einen speziell auf LLM-Inferenz ausgelegten KI-Beschleuniger vorgestellt. Der Chip soll Antworten großer Sprachmodelle schneller, energieeffizienter und zuverlässiger ausführen, zunächst in eigenen Rechenzentrumsplattformen und später über mehrere Hardware-Generationen hinweg.

Übersicht:

Was Jalapeño leisten soll

Jalapeño ist OpenAIs erster eigener Intelligence Processor, also ein Beschleuniger für die Ausführung großer Sprachmodelle. Anders als ein universeller KI-Chip wurde er laut OpenAI von Beginn an für LLM-Inferenz geplant, also für den Moment, in dem ein Modell nach dem Training echte Anfragen beantwortet.

Der Chip soll vor allem die Performance pro Watt verbessern. Das ist entscheidend, weil KI-Systeme nicht nur schnell rechnen müssen, sondern bei Millionen paralleler Anfragen auch Strom, Kühlung und Netzwerkkapazität effizient nutzen müssen.

OpenAI nennt frühe Labortests mit ML-Workloads, darunter GPT-5.3-Codex-Spark. Finale Messwerte stehen noch aus, ein technischer Bericht zur Leistung soll später folgen.

Warum Inferenz zum Engpass wird

Training erzeugt ein Modell, Inferenz macht es nutzbar. Jede Antwort in ChatGPT, jede Code-Aufgabe in Codex und jeder Aufruf über die OpenAI API belastet Rechenchips, Speicher, Netzwerk und Stromversorgung.

Bei interaktiven KI-Produkten zählt nicht nur rohe Rechenleistung. Nutzer spüren vor allem Latenz, also Wartezeit, Stabilität bei hoher Nachfrage und die Kosten, die sich in Produktpreisen oder API-Gebühren niederschlagen können.

Jalapeño zielt deshalb auf weniger Datenbewegung im System. Wenn Daten seltener zwischen Recheneinheiten, Speicher und Netzwerk verschoben werden müssen, sinkt Energieverbrauch und die tatsächlich nutzbare Leistung nähert sich stärker der theoretischen Spitzenleistung.

Wie OpenAI den Chip entwickelt hat

OpenAI und Broadcom geben an, Jalapeño in neun Monaten vom ersten Design bis zum Tape-out gebracht zu haben. Tape-out bezeichnet den Schritt, bei dem ein Chipdesign für die Fertigung finalisiert wird.

Bemerkenswert ist nicht nur die Geschwindigkeit, sondern der Entwicklungsansatz. OpenAI nutzte nach eigenen Angaben Wissen aus Modellarchitektur, Kernels, Serving-Systemen und Produktbetrieb, während Broadcom die Umsetzung im Silizium und zentrale Netzwerktechnik beisteuerte.

Daraus entsteht ein enger Kreislauf: Modelle helfen, Infrastruktur zu entwerfen, und bessere Infrastruktur hilft, künftige Modelle günstiger und schneller bereitzustellen.

Praxisbeispiel

Ein Entwickler lässt Codex eine größere Codebasis prüfen. Auf herkömmlicher Infrastruktur können lange Kontextfenster, viele Tool-Calls und parallele Tests Wartezeit erzeugen. Ein auf LLM-Inferenz zugeschnittener Chip kann solche Abläufe beschleunigen, weil Rechenlogik, Speicherzugriffe und Netzwerkverkehr auf genau diese Muster abgestimmt sind.

Welche Partner die Plattform tragen

Jalapeño ist nicht als Einzelchip gedacht, sondern als Startpunkt einer mehrjährigen Compute-Plattform. OpenAI liefert die Architekturidee und die Anforderungen aus dem eigenen KI-Betrieb, Broadcom bringt Chipumsetzung, Konnektivität und Netzwerktechnik wie Tomahawk-Switching-Silizium ein.

Celestica soll bei Boards, Racks und Systemintegration helfen. Solche Aufgaben entscheiden darüber, ob ein Chip nicht nur im Labor funktioniert, sondern in großen Rechenzentren zuverlässig, wartbar und in Serie betreibbar ist, etwa über Rack-Integration für KI-Infrastruktur.

Laut Broadcom ist eine Bereitstellung im Gigawatt-Maßstab mit Microsoft und weiteren Partnern ab 2026 vorgesehen. Microsoft hatte seine Infrastrukturpartnerschaft mit OpenAI zuletzt ebenfalls auf neue Rechenzentrums- und Siliziumkapazitäten ausgeweitet, siehe den Microsoft-Beitrag zur OpenAI-Partnerschaft.

Was Nutzer und Unternehmen davon haben

Der direkte Effekt eines besseren Inferenzchips liegt nicht im Datenblatt, sondern im Produktverhalten. Wenn Jalapeño die erwartete Effizienz erreicht, können KI-Dienste schneller reagieren, bei Lastspitzen stabiler bleiben und langfristig günstiger betrieben werden.

Für Nutzer: kürzere Wartezeiten bei Chatbots, Agenten und Rechercheaufgaben.
Für Entwickler: mehr Spielraum für längere Kontexte, mehr API-Aufrufe und komplexere Workflows.
Für Unternehmen: bessere Planbarkeit bei KI-Kosten, Verfügbarkeit und Skalierung.
Für OpenAI: mehr Kontrolle über die gesamte Wertschöpfung, vom Modell bis zum Rechenzentrum.

Der zentrale Punkt lautet: Inferenz ist der Ort, an dem KI zur Dienstleistung wird. Wer dort Kosten und Geschwindigkeit kontrolliert, kontrolliert einen großen Teil des KI-Marktes.

Wie der Chip strategisch einzuordnen ist

Jalapeño zeigt, dass sich die großen KI-Anbieter nicht mehr nur über Modelle unterscheiden. Der Wettbewerb verschiebt sich tiefer in die Infrastruktur, zu Chips, Netzwerken, Stromverträgen, Racks und Software für die Auslastung.

Ein hilfreiches Mini-Modell dafür ist Modell, Metall, Megawatt. Das Modell bestimmt die Fähigkeiten, das Metall steht für eigene Chips und Servertechnik, Megawatt beschreibt die Energie und Rechenzentrumsgröße, die nötig ist, um KI weltweit auszuliefern.

Die Entscheidungsregel ist klar: Ein eigener KI-Chip ist dann strategisch stark, wenn er nicht nur Benchmarks gewinnt, sondern die Kosten pro brauchbarer Antwort senkt. Für OpenAI zählt deshalb weniger ein einzelner Spitzenwert, sondern ob Jalapeño im Dauerbetrieb mit realen ChatGPT-, Codex- und API-Workloads schneller, stabiler und günstiger arbeitet.