Forscher aus Princeton haben getestet, wie gut zehn KI-Modelle ein erfundenes Start-up über 500 Tage leiten können – nur drei davon haben mehr Geld verdient als sie am Anfang hatten.
Stell dir vor, du gibst einer KI die Chefin für ein eigenes Unternehmen. Genau das haben Forscher der Princeton University gemacht – allerdings nur in einer Simulation auf dem Computer. In ihrem neuen Test „CEO-Bench“ mussten zehn bekannte KI-Modelle 500 Tage lang ein fiktives Start-up managen. Ihnen standen 34 Werkzeuge zur Verfügung: Preise festlegen, Produkte gestalten, Marketingbudgets verteilen und Konkurrenten beobachten. Gestartet wurde mit einer Million US-Dollar – und wenn das Geld unter null fällt, ist das Spiel vorbei. Am Ende haben nur drei Modelle überhaupt Geld übrig behalten, manche schafften schon nach 37 Tagen schlapp.
Am besten lief es für das Modell Claude Opus 4.8, das am Ende rund 27,8 Millionen US-Dollar auf dem Konto hatte. Auf Platz zwei landete GPT-5.5 mit 21,3 Millionen US-Dollar. Beide Modelle haben sich übrigens selbst kleine Hilfsprogramme geschrieben, um ihre Entscheidungen zu verbessern. Ein cleverer Trick – aber die wenigsten anderen Modelle haben das hinbekommen. Viele sind pleite gegangen, zum Beispiel Grok 4.20 nach nur 37 Tagen. Spannend war auch: Ein einfaches, fest programmiertes Regelwerk ohne jede KI schlug immerhin sieben der zehn getesteten Modelle.
