Google DeepMind hat SIMA 2 vorgestellt, die Weiterentwicklung ihres KI-Agenten für virtuelle 3D-Umgebungen. Während die erste Version von SIMA (das steht für Scalable Instructable Multiworld Agent) nur einfache Anweisungen befolgen konnte, entwickelt sich der Agent nun zu einem interaktiven Spielpartner, der über seine Ziele nachdenkt und sich kontinuierlich selbst verbessert – so zumindest das große Versprechen.
SIMA 2 integriert ein aktuelles Gemini-Modell (welches, verrät Google nicht) als Kernkomponente und kann dadurch weit mehr als nur Anweisungen ausführen. Der Agent denkt über komplexe Aufgaben nach, plant mehrschrittige Lösungswege und erklärt seine Handlungen verständlich. In Tests wirkte die Interaktion weniger wie das Erteilen von Befehlen, sondern mehr wie die Zusammenarbeit mit einem denkenden Companion, der die Situation versteht und eigenständig Entscheidungen trifft.
Die Generalisierungsfähigkeiten des neuen Agenten sind beeindruckend. SIMA 2 versteht komplexe und nuancierte Anweisungen in verschiedenen Sprachen und kann sogar Emojis oder handgezeichnete Skizzen interpretieren. Besonders bemerkenswert ist die Fähigkeit, erlerntes Wissen zwischen verschiedenen Spielwelten zu übertragen – etwa das Konzept des „Abbauens“ von einem Spiel auf „Ernten“ in einem anderen anzuwenden. Diese konzeptuelle Flexibilität bringt den Agenten deutlich näher an menschliche Denkweisen heran.
In völlig neuen Spielen wie dem Viking-Survival-Game ASKA oder MineDojo, einer Minecraft-Implementierung, zeigt SIMA 2 erheblich bessere Leistungen als sein Vorgänger. Der Agent kann sich in unbekannten Umgebungen orientieren, Nutzeranweisungen verstehen und zielgerichtete Aktionen ausführen, obwohl er diese Welten nie zuvor gesehen hat.
Eine Schlüsselinnovation ist SIMA 2s Fähigkeit zur autonomen Selbstverbesserung. Nach anfänglichem Training durch menschliche Demonstrationen kann der Agent eigenständig in neuen Spielwelten lernen und seine Fähigkeiten durch Trial-and-Error erweitern. Diese selbst gesammelten Erfahrungen fließen in das Training nachfolgender Agent-Versionen ein und schaffen einen kontinuierlichen Verbesserungskreislauf ohne menschliche Intervention.
Google testet SIMA 2 sogar in komplett generierten Welten des hauseigenen Genie-3-Systems. Dabei zeigte der Agent eine beispiellose Anpassungsfähigkeit und konnte sich in völlig fremden, künstlich erschaffenen Umgebungen zurechtfinden. Dies demonstriert das Potenzial für universell einsetzbare KI-Agenten, die in beliebigen virtuellen Welten agieren können.
Trotz der Fortschritte bestehen noch Herausforderungen. SIMA 2 hat Schwierigkeiten mit sehr komplexen, langfristigen Aufgaben und verfügt über ein begrenztes Gedächtnis für vergangene Interaktionen. Präzise Aktionen über Tastatur und Maus sowie das robuste Verstehen komplexer 3D-Szenen bleiben offene Forschungsfelder.
Die in Spielwelten erlernten Fähigkeiten – Navigation, Werkzeugnutzung und kollaborative Aufgabenbearbeitung – sind grundlegende Bausteine für künftige physische KI-Assistenten. Google sieht SIMA 2 als wichtigen Schritt in Richtung verkörperter Intelligenz und Anwendungen in der Robotik. Vorerst wird die Technologie nur einem kleinen Kreis von Akademikern und Spieleentwicklern zugänglich gemacht, um verantwortungsvolle Entwicklung zu gewährleisten.
