Der KI-CEO geht pleite: Was das Princeton-Experiment über Governance lehrt

Princeton hat das Experiment gemacht, das viele fantasieren: Lass eine KI ein Unternehmen führen. 13 Frontier-Modelle. 1 Million Dollar Startkapital. 500 simulierte Tage. Fünf Modelle gingen in jedem Durchlauf pleite. Eine regelbasierte Routine schlug zehn von dreizehn. Die Lektion heißt nicht: Wir brauchen klügere Modelle. Sie heißt: Wir brauchen Governance.

29. Juni 2026

Stell dir vor, du könntest das Experiment machen, das viele fantasieren: Gib einer KI ein Unternehmen. Echtes Kapital. Echte Entscheidungsverantwortung. Und beobachte, was passiert.

Princeton hat es gemacht.

CEO-Bench ist ein neuer Benchmark der Princeton University. Das Setup: 13 Frontier-KI-Modelle erhalten jeweils 1 Million Dollar Startkapital und führen ein simuliertes Startup über 500 Tage, mit 26 Kundengruppen, 19 Datenbanktabellen und 34 verfügbaren Tools in sieben Kategorien. Gemessen wird ausschließlich am finalen Cash. Keine Bonuspunkte für elegante Strategie. Nur das Ergebnis zählt.

Die Ergebnisse sind ehrlich, sorgfältig gebaut, und für alle, die KI ernsthaft im Unternehmen einsetzen wollen, äußerst lehrreich.

Was passiert ist

Drei Modelle schlugen die Ausgangsinvestition. Claude Fable 5 schloss mit 47,1 Millionen Dollar. Claude Opus 4.8 mit 27,8 Millionen. GPT-5.5 mit 21,3 Millionen.

Fünf Modelle gingen in jedem einzelnen Durchlauf pleite: GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro und Grok 4.20. Nicht nur in einem von drei Durchläufen, sondern in allen drei!

Zum Vergleich gab es es noch eine einfache regelbasierte Baseline (kein Sprachmodell, kein adaptives Lernen), die mit 15,8 Millionen Dollar abschloss. Sie schlug damit zehn von dreizehn Frontier-Modellen.

Eine Regelroutine ohne jedes Sprachmodell schlug zehn von dreizehn Frontier-KIs im offenen Unternehmensmanagement.

Das ist keine Kritik am Benchmark. Das ist der Benchmark, der genau das misst, was er messen soll.

Was die Gewinner anders gemacht haben

Die Analyse zeigt klare Muster bei den Top-Performern. GPT-5.5 leitete 89 Prozent seiner Entwicklungsausgaben in kundensegmentspezifische Verbesserungen. Claude Opus 4.8 tat dasselbe mit 87 Prozent. Claude Opus 4.7, der weit unterhalb der Baseline abschloss, erreichte nur 44 Prozent. Kimi K2.6 gerade einmal 10 Prozent.

Die Gewinner schrieben If-Then-Pläne. Sie nutzten ihre Tools breit statt schmal. Sie entwickelten Code, um Cashflows zu prognostizieren und versteckte Kundenpräferenzen abzuleiten.

Gleichzeitig zeigt der Benchmark eine andere, weniger diskutierte Beobachtung: Claude Opus 4.8, eines der stärkeren Modelle, fiel mitten in der Simulation auf null Kunden und erholte sich bis Tag 500 nicht. Null Kunden, den gesamten zweiten Abschnitt der Simulation hindurch. Endergebnis: 27,8 Millionen Dollar. Die Schlusszahl sieht gut aus, das Unternehmen war de facto tot. Wer nur die Endzahl liest, sieht die Katastrophe nicht.

Die eigentliche Lektion

Hier liegt das Missverständnis, das ich gerne klarstellen möchte.

Die naheliegende Schlussfolgerung: Die meisten Modelle waren einfach nicht intelligent genug. Klügere Modelle lösen das Problem.

Das stimmt nicht, jedenfalls nicht vollständig.

Die Modelle, die pleite gingen, waren nicht unintelligent. Sie hatten keine Governance. Niemand hatte definiert, nach welchen Regeln Entscheidungen getroffen werden. Keine Qualitätsprüfung, bevor Budgets umgeschichtet wurden. Keine Eskalationsschwelle, ab der ein menschliches Urteil gefragt wäre. Keine Rollengrenze, die verhinderte, dass ein Modell die gesamte Kundenbasis eliminierte und einfach weitermachte.

Es fehlte nicht Intelligenz. Es fehlte Governance.

Das ist kein akademisches Argument und kein Versagen des Benchmarks. Das ist das Kernproblem von autonomen KI-Systemen in echten Unternehmenskontexten: Ohne Struktur ist auch das stärkste Modell eine Blackbox, die Entscheidungen nach unbekannten Regeln trifft.

Warum schlug die regelbasierte Baseline zehn Sprachmodelle? Nicht weil Regelroutinen klüger sind. Weil sie strukturiert war. Vorhersehbares Verhalten. Kein Plötzlichkeitsrisiko. Kein Drift in der Strategie.

Ein anderer Rahmen

Wir haben Rocket Routine OS nicht gebaut, um einen autonomen KI-CEO zu erschaffen. Wir haben es gebaut, weil der autonome KI-CEO das falsche Modell ist.

Der Princeton-Benchmark zeigt das unter kontrollierten Bedingungen: Wenn du einer KI vollständige Autonomie gibst, bekommst du ein Spektrum von Ergebnissen, das du nicht steuern kannst. Drei Modelle gewinnen. Zehn verlieren. Fünf davon gehen pleite. Und du weißt nicht im Voraus, in welches Lager du fällst.

Genau für diese Lücke haben wir es gebaut.

Statt autonome Agenten loszuschicken, die Entscheidungen treffen, weil niemand ihnen gesagt hat, welche sie nicht treffen dürfen, ist die Arbeit hier auf gebundene Entscheidungsrechte ausgelegt. Jeder AI-Operator hat einen Role Contract:

definierter Zweck
klare Tool-Grenzen
explizite Eskalations-Trigger
Qualitätsprüfung vor jeder Auslieferung.

Das entspricht dem, was im Benchmark strukturell fehlt. Die Gewinner zeigten de facto ähnliche Muster: präzise Segmentierung, bedingte Planung, geprüfte Annahmen. Aber sie taten es, weil das Sprachmodell in diesem Durchlauf diese Muster generierte, nicht weil das System so ausgelegt war.

Hier ist es strukturell angelegt. Prozesse sind das Problem, nicht Menschen, und nicht die KI-Modelle. Das ist Grundprinzip Nummer fünf. Wenn ein Prozess schlecht designed ist, liefert er schlechte Ergebnisse, unabhängig davon, wie intelligent der Akteur ist, der ihn ausführt.

Verification first: Nichts wird ausgeliefert, ohne dass eine Qualitätsprüfung stattgefunden hat. Das ist das Prinzip, das verhindert, dass ein KI-Operator die Kundenbasis eliminiert und weitermacht, weil niemand eine Überprüfung eingebaut hat. Und es erklärt, warum das System den Weg überwacht, nicht nur das Ergebnis. Eine Endzahl, die gut aussieht, ist kein Beweis für einen kontrollierten Prozess.

Die Role Contracts sind die operative Antwort auf das, was im Benchmark fehlt: explizite Grenzen, bevor die Ausführung beginnt. Nicht als Bremse. Als Sicherheitsarchitektur.

Und der CEO bleibt souverän. Das System gibt Entscheidungsausführung an AI-Operatoren ab, nicht die Entscheidungsverantwortung. Die strukturellen Weichenstellungen bleiben menschlich. Was KI-Operatoren übernehmen, sind die Leaf-Entscheidungen: Routinearbeit innerhalb definierter Grenzen, nicht die Root-Entscheidungen, die das Unternehmen formen.

Wir spielen nicht das gleiche Spiel wie CEO-Bench. Wir ändern den Rahmen: Der Mensch bleibt CEO. Das System stellt sicher, dass die KI nicht außerhalb ihrer Grenzen handelt.

Was das für dich bedeutet

Hier geht's zur CEO-Bench: https://ceobench.com/. Das ist ein gut gemachter Benchmark. Er misst etwas Reales und Wichtiges: Was passiert, wenn Frontier-Modelle vollständige Autonomie erhalten, ohne strukturelle Leitplanken?

Die Antwort: Manchmal sehr viel Geld. Meistens nicht. Fünf von dreizehn jedes Mal pleite.

Das ist kein Argument gegen KI im Unternehmenseinsatz. Es ist ein Argument für kontrollierte Umsetzung.

Das Ziel ist nicht Autonomie, sondern verifizierbare Umsetzung unter menschlicher Führung. Jede Routine hat eine Qualitätsprüfung. Jeder Operator hat definierte Grenzen. Jeder CEO behält das Steuer.

Das ist der Unterschied zwischen einem Experiment und einem Betriebssystem.

Wenn dich interessiert, wie das in der Praxis aussieht: Die Warteliste ist offen. rocket-routine.com