Google hat vor wenigen Wochen eine Bildschirm-Automatisierung für Android-Apps angekündigt und über Gemini den Traum von der „sich selbst bedienenden App“ wahr gemacht. Die ersten Erfahrungen sind nun öffentlich.
Gemini kann jetzt aktiv die Steuerung von Apps auf Android übernehmen, das geht auf der Pixel-Reihe und bei der Galaxy S26-Serie von Samsung in den USA. Es ist damit möglich, dass man diverse Prozesse in einer App nicht mehr selbst erledigt, etwa Flüge suchen oder den Warenkorb mit Produkten füllen.
Der Nutzer sagt per Sprache, was er sich von dem System wünscht und muss schlussendlich nur noch den Prozess abschließend bestätigen, etwa die Buchung oder Bestellung mit seinem Go durchwinken. Aber funktioniert das auf Anhieb schon?
Dass es hier noch Luft nach oben gibt, bestätigt Allison Johnson (The Verge) in ihrem Bericht. Ein Punkt ist, dass die Automatisierung derzeit noch quälend langsam ist, der Nutzer wäre bei der händischen Bedienung der App deutlich flotter als es die KI derzeit noch schafft.
KI nutzt keine Schnittstellen, sondern bedient die App wie ein Mensch
Das Kernproblem liegt meines Erachtens darin, dass dieses System nicht auf standardisierte Schnittstellen setzt, sondern die Apps „wie ein Mensch“ bedienen möchte. Dabei muss das System immer wieder den gesamten Bildschirm scannen, Tasten und Schalter korrekt erkennen. Das dauert.
Zwei halbe Produkte für ein Ganzes und Probleme bei der Erkennung wichtiger Menüpunkte:

Obwohl man sogar mit ausgewählten Partnern zusammenarbeitet, hat das System dennoch Probleme in der Erkennung von „offensichtlichen Schaltflächen“. Der Vorteil liegt aber auf der Hand: Egal wie lange das System benötigt, es läuft im Hintergrund und ihr könnt euer Android-Telefon komplett normal benutzen.
Google bietet hier dennoch nur eine Übergangslösung an, die „den normalen“ Nutzer sicherlich beeindrucken kann. Solche Lösungen werden jedoch sicherlich nicht das Ende von Apps bedeuten, wie es andere vorhersagen.
Wer ordert denn immer gleich?
Wenn wir Essen bestellen, dann nicht immer einfach dasselbe. Wir stöbern durch die Speisekarte, KI kann mir das nicht abnehmen. Auch der Einkauf, egal ob Drogerie oder Lebensmittel, sieht bei uns nie exakt gleich aus, wie soll das KI dann übernehmen können? Ich habe noch meine Zweifel, dass das System überhaupt von großem Nutzen im Alltag sein kann.
Praktisch ist es hingegen bei Prozessen, die recht eindeutig sind und ich nicht überlegen muss. Ich brauche am Tag X drei Flugtickets mit Gepäck von Ort A nach Ort B und am Ziel einen Transfer zum Hotel, so etwas könnte KI vollständig übernehmen. Buche mir Restaurants für die nächsten drei Tage auf Basis unserer Vorlieben am Zielort für jeweils 18 Uhr, auch das wäre denkbar.
Beeindruckend ist weiterhin die Geschwindigkeit. Vor wenigen Jahren ging das zaghaft mit KI-Chats los, heute bedienen diese Systeme unsere Telefone.
