Google erweitert Gemini um das neue „Computer Use Model“ und stellt damit eine eigene Agenten-Lösung für seine KI vor. Kurz gesagt: Gemini kann durch seinen Agenten nun selbst mit GUIs umgehen, also grafische Oberflächen wie Apps und Webseiten tatsächlich bedienen, ähnlich wie es der Agent bei ChatGPT macht.
Das Modell soll im Grunde genommen alle Aufgaben erledigen können, die bislang nur durch direkte Mensch-Computer-Interaktion möglich gewesen sind, etwa das Ausfüllen von Formularen oder Navigieren durch Webseiten hinter Logins.
Ich selbst nutze den ChatGPT-Agenten hin und wieder schon sehr gern, er kann Aufgaben auf Webseiten für mich zuverlässig erledigen, während ich an anderen Dingen arbeite.
Google hat noch nicht konkret genannt, wann das Computer Use Model auch für Endkunden verfügbar ist, zunächst sprach man eher über dessen Leistungsfähigkeit und startet eine Vorschau gezielt für Entwickler.