Ein Forschungsteam von Boston Children’s Hospital, Harvard University und OpenAI hat 376 zuvor ungelöste Fälle seltener genetischer Erkrankungen erneut analysiert. Das OpenAI-Modell o3 Deep Research lieferte prüfbare Hinweise, nach ärztlicher Kontrolle und Labortests wurden 18 zusätzliche Diagnosen bestätigt. Der Kern der Studie: KI kann Fachleute bei der Suche nach plausiblen Erklärungen unterstützen, sie ersetzt aber keine medizinische Diagnose.
Übersicht:
Was die Studie gezeigt hat
Die am 18. Juni 2026 in NEJM AI veröffentlichte Untersuchung zeigt, wie ein Reasoning-Modell schwer lösbare genetische Fälle neu sortieren kann. OpenAI o3 Deep Research lieferte keine Diagnosen, sondern begründete Kandidaten, die Ärztinnen, Ärzte und Genetik-Fachleute anschließend nach etablierten Standards prüften.
Der zusätzliche diagnostische Ertrag lag bei 4,8 Prozent. Das klingt niedrig, ist in diesem Kontext aber relevant, weil die Fälle bereits durch Spezialisten, kommerzielle Analyse-Pipelines und multidisziplinäre Teams gegangen waren.
Seltene Erkrankungen bleiben trotz Genomsequenzierung oft ungeklärt. Etwa die Hälfte der Betroffenen erhält auch nach umfangreicher Diagnostik keine eindeutige genetische Erklärung. Das Problem ist selten ein einzelner fehlender Test, sondern die Kombination aus riesigen Variantenlisten, verstreuten Patienteninformationen und ständig neuer Fachliteratur.
Warum alte Fälle neue Antworten liefern können
Ein negatives oder unklares genetisches Ergebnis ist nicht immer endgültig. Das Genom eines Kindes verändert sich zwar kaum, aber das Wissen über Gene, Varianten und Krankheitsbilder wächst laufend. Ein Befund, der vor Jahren nicht einzuordnen war, kann durch neue Fallberichte, Datenbankeinträge oder Laborbewertungen plötzlich erklärbar werden.
Die Herausforderung ähnelt einer Bibliothek, in der Bücher, Registerkarten und neue Forschungspapiere ständig an unterschiedlichen Stellen auftauchen. Ärztliche Teams müssen Symptome, Familiengeschichte, Erbgänge, Variantenqualität und Literatur zusammenführen. Genau an dieser Schnittstelle setzte der KI-gestützte Workflow an.
Statt nur eine Rangliste möglicher Gene auszugeben, sollte das Modell seine Herleitung offenlegen. Es musste klinische Merkmale, Vererbungsmuster, Variantenhinweise und wissenschaftliche Belege zu einer überprüfbaren Hypothese verbinden.
Wie der KI-Workflow funktionierte
Vom Datenpaket zur Hypothese
Für jeden Fall stellten die Forschenden ein anonymisiertes Datenpaket zusammen. Es enthielt standardisierte Symptome nach der Human Phenotype Ontology, teils ärztliche Notizen, Alter, Geschlecht und eine gefilterte Tabelle genetischer Varianten.
Diese Variantentabelle beschrieb unter anderem, wie selten eine Veränderung ist, welchen Effekt sie vermutlich auf das Protein hat, wie sie in ClinVar eingeordnet wird und wie zuverlässig das Signal in den Sequenzdaten war. In vielen Fällen lagen Daten des Kindes und beider biologischer Eltern vor.
Das Modell sollte daraus die plausibelste molekulare Erklärung ableiten und die Begründung sichtbar machen. Danach prüften mindestens zwei Fachleute jeden Vorschlag nach dem ACMG/AMP-Rahmen für Variantenklassifikation. Uneinigkeit wurde im Konsens geklärt.
Entscheidungsregel: Ein KI-Hinweis zählt erst dann als belastbar, wenn Fachleute die Evidenz prüfen, eine Variante als pathogen oder wahrscheinlich pathogen einstufen, ein CLIA-zertifiziertes Labor sie bestätigt und das klinische Team den Befund an die Familie zurückgibt.
Tests an bereits gelösten Fällen
Vor der Analyse ungelöster Fälle wurde der Ablauf an bekannten Diagnosen geschärft. In 48 von 51 gemischten seltenen Erkrankungen fand der Workflow in doppelten Läufen das richtige Gen und die richtige Variante. Bei 57 neuromuskulären Fällen gelang das in 45 Fällen.
In einem Datensatz mit 15 Long-Read-Genomen nannte das Modell in allen Fällen das richtige Gen und in 12 Fällen beide krankheitsverursachenden Allele. Diese Vorprüfungen dienten nicht als klinischer Ersatztest, sondern halfen, den Prompt und die Prüfschritte zu verbessern.
Die vom Modell ausgegebenen Vertrauenswerte korrelierten mit richtigen Treffern, waren aber keine echten Wahrscheinlichkeiten. Sie halfen den Reviewern, vielversprechende Kandidaten schneller zu priorisieren, ersetzten jedoch keine Evidenzbewertung.
Welche Ergebnisse die Forschenden fanden
Die 376 ungelösten Fälle stammten aus vier Gruppen: neuroentwicklungsbezogene Erkrankungen, seltene neuromuskuläre Krankheiten, frühe Psychosen bei Kindern und Jugendlichen sowie plötzliche unerwartete Todesfälle im Kindesalter.
| Kohorte | Fälle | Bestätigte Diagnosen | Ertrag |
|---|---|---|---|
| Neuroentwicklungsstörungen | 100 | 10 | 10,0 Prozent |
| Neuromuskuläre Erkrankungen | 61 | 4 | 6,6 Prozent |
| Plötzlicher unerwarteter Kindstod | 200 | 2 | 1,0 Prozent |
| Frühe Psychosen | 15 | 2 | 13,3 Prozent |
| Gesamt | 376 | 18 | 4,8 Prozent |
Die Prozentwerte hängen stark von der Zusammensetzung der Kohorten ab. Die Gruppe mit frühen Psychosen war sehr klein, deshalb ist der dortige Anteil statistisch weniger stabil. Außerdem unterscheiden sich die Gruppen darin, wie wahrscheinlich eine einzelne Genveränderung die Erkrankung erklären kann.
Sieben der 18 Diagnosen waren Wiederentdeckungen. Sie waren außerhalb des lokalen Forschungsablaufs bereits festgestellt worden, tauchten aber nicht in den Unterlagen auf, die das Team für die Studie prüfte. Das zeigt den praktischen Kern des Problems: Genetische Diagnostik scheitert nicht nur an Biologie, sondern auch an Datenfluss.
Welche Beispiele den Nutzen greifbar machen
Ein versteckter Hinweis auf Chromosom 22
In einem Fall aus der Psychose-Kohorte erkannte das Modell ein Muster, das gar nicht ausdrücklich als Variante in den Eingabedaten stand. Es verband auffällig schwache Signale auf Chromosom 22 mit Herz-, Immun-, Entwicklungs- und psychiatrischen Merkmalen des Kindes.
Daraus formulierte es die Hypothese einer 22q11.2-Deletion, die mit dem DiGeorge-Syndrom verbunden ist. Eine anschließende Genomsequenzierung bestätigte den Verdacht. Das Beispiel zeigt, dass ein Modell nicht nur vorhandene Tabellenzeilen sortieren kann, sondern auch Datenqualitätsmuster inhaltlich einordnet.
Kyra und die Diagnose nach fast zwanzig Jahren
Ein besonders anschauliches Praxisbeispiel ist Kyra. Ihre Mutter bemerkte im Karateunterricht, dass die damals 9-Jährige ihre Stellungen nicht mehr so tief halten konnte. Später kamen Probleme beim Fußball, ein Zehengang und zunehmende Muskelschwäche hinzu.
Fast zwei Jahrzehnte lang folgten Untersuchungen, Therapien und Konsultationen ohne klare Diagnose. Im neuromuskulären Teil der Studie führte der Workflow zu einem Hinweis auf eine Frameshift-Variante in HSPB8. Fachleute diagnostizierten daraufhin eine Form der myofibrillären Myopathie, bei der fehlerhafte Proteinstrukturen Muskelfasern schädigen.
Für Kyra bedeutete die Diagnose keine einfache Therapie. Sie brachte aber eine Erklärung für eine Krankheit, an die sie ihr Leben lange anpassen musste. In der seltenen Erkrankungsmedizin kann genau diese Einordnung für Familien medizinisch und psychologisch wichtig sein.
Neue Hypothesen statt nur bekannte Diagnosen
Das Modell lieferte auch eine mögliche neue biologische Erklärung für Vitiligo. In einem neuroentwicklungsbezogenen Fall hob es eine Deletion von elf Aminosäuren in S1PR1 hervor. Dieses Gen codiert einen Rezeptor, der an Signalwegen, Immunzellbewegung und Gewebebiologie beteiligt ist.
Die KI verband Hinweise aus Strukturbiologie, Immunologie und klinischer Genetik zu einer prüfbaren Hypothese: Die Veränderung könnte Rezeptorsignale so beeinflussen, dass weniger Pigment entsteht und Immunzellen länger in der Haut verbleiben. Diese Idee ist nicht bewiesen, sondern braucht experimentelle Validierung.
Auch bei HSPB8 und CDK13 deuteten die Daten auf mögliche Erweiterungen bekannter Krankheitsbilder hin. Solche Befunde sind wertvoll, weil sie Forschung anstoßen, aber sie müssen durch weitere Fälle und Laborarbeit abgesichert werden.
Welche Grenzen die Studie setzt
Die Studie belegt nicht, dass Patientinnen, Patienten oder medizinische Einrichtungen OpenAI-Modelle eigenständig zur Diagnose nutzen sollten. Das Modell traf keine klinische Entscheidung. Es erzeugte begründete Vorschläge, die Menschen überprüften.
Die Untersuchung war retrospektiv, die Kohorten waren uneinheitlich, und die Reviewer kannten die Vertrauenswerte des Modells. Nicht gemessen wurden Zeitersparnis, Kosten, zusätzlicher Arbeitsaufwand, Falsch-Positiv-Last oder Auswirkungen auf die Behandlung.
Auch bestimmte Variantenarten wurden nicht systematisch bewertet, darunter strukturelle Varianten, Repeat-Expansionen, tief-intronische Veränderungen und Mosaizismus. Große Sprachmodelle können Zusammenhänge falsch lesen oder überzeugend klingende Erklärungen erzeugen, die einer Prüfung nicht standhalten.
Die verwendeten Informationen waren anonymisiert, geschützte Gesundheitsdaten wurden nicht außerhalb genehmigter Umgebungen genutzt oder übertragen. Für breitere klinische Anwendungen wären Datenschutz, Sicherheit, Prüfprotokolle, Nachvollziehbarkeit und lokale Regulierung genauso wichtig wie bei jeder anderen medizinischen Infrastruktur.
Was das für den Markt bedeutet
Die wichtigste Markteinordnung lautet: KI verschiebt seltene Diagnostik nicht von Ärzten zu Maschinen, sondern von manueller Suche zu überprüfbarer Priorisierung. Der Engpass ist weniger die reine Rechenleistung als die verfügbare Expertenzeit.
Ein nützliches Mini-Modell ist Daten, Wissen, Prüfung. Daten stehen für Genomsequenzen, Symptome und Familieninformationen. Wissen steht für neue Literatur, Datenbanken und Fallberichte. Prüfung steht für Fachreview, Laborbestätigung und genetische Beratung.
KI kann vor allem die ersten beiden Schichten schneller verbinden. Die dritte Schicht bleibt klinisch, reguliert und menschlich. Genau darin liegt der Unterschied zwischen einem Forschungs-Copilot und einem Diagnosesystem.
Das Manton Center for Orphan Disease Research arbeitet seit Jahren an seltenen und ungeklärten genetischen Erkrankungen. Die Studie passt in einen größeren Trend: Genomdaten werden billiger, die Interpretation bleibt teuer, langsam und personalintensiv.
Was als Nächstes kommen muss
Der nächste Schritt sind prospektive Studien an mehreren Zentren. Sie sollten KI-gestützte Reanalyse direkt mit Standardabläufen vergleichen, etwa bei diagnostischem Ertrag, Zeit bis zum Kandidaten, Arbeitsbelastung, Falsch-Positiven, Kosten und tatsächlichem Nutzen für die Versorgung.
Für reproduzierbare Ergebnisse braucht es versionierte Prompts, überprüfbare Quellen, Audit-Logs und bessere Unsicherheitsangaben. Ein Modell darf nicht nur eine plausible Geschichte liefern, sondern muss zeigen, worauf sich jeder Baustein stützt.
Die Studie nutzte OpenAI o3 Deep Research. Neuere spezialisierte Systeme wie GPT-Rosalind für Life-Sciences-Forschung zielen stärker auf biologische Forschung, Proteinstruktur und Variantenwirkung. Diese Fähigkeiten wurden in der Untersuchung nicht getestet und brauchen eigene Evaluationen sowie kontrollierten Zugang.
Der langfristige Nutzen liegt in einem skalierbaren Reanalyse-System, das Fachleute regelmäßig auf neue Hinweise aufmerksam macht. Für Familien mit ungeklärten seltenen Erkrankungen ist das keine Garantie auf eine Antwort, aber eine realistische Chance, dass alte Daten mit neuem Wissen neu lesbar werden.

