Bard: So oft liegt Googles KI völlig daneben

Die Google-Suche durchläuft derzeit bekanntlich eine neue Phase. Google hat nämlich die sogenannte Search Generative Experience (SGE) eingeführt, die weithin auch einfach als Bard bekannt ist. Seit einer Woche ist sie (zumindest in 180 Ländern, wenn auch nicht in Deutschland) verfügbar und wurde vom Onlinemagazin Search Engine Land mit 30 speziellen Anfragen getestet, um die Leistungsfähigkeit der KI-gesteuerten Sucherfahrung zu messen.

merrills-marauders-search-engine-land-1 — Alte vs. neue Suchergebnisse in Google. Quelle: Search Engine Land

merrills-marauders-search-engine-land-2 — Alte vs. neue Suchergebnisse in Google. Quelle: Search Engine Land

Die SGE wurde am 10. Mai auf der Google I/O Veranstaltung angekündigt. Sie ist Googles Ansatz, generative KI in das Sucherlebnis zu integrieren. Die Nutzererfahrung unterscheidet sich nur leicht von der Chat-Erfahrung in Bing, die schon etwas länger verfügbar ist (auch in Deutschland).

KI-Funktionen von Google durch EU-Gesetze ausgesperrt

SGE lieferte in vielen Fällen keine Antwort, insbesondere bei gesundheits- oder finanzbezogenen Anfragen, bei Themen, die als sensibel eingestuft werden, und bei Themen, bei denen die KI sich „unwohl“ fühlt, darauf zu antworten.

Google will sich natürlich absichern. Deshalb steht über den Ergebnissen: „Generative KI ist experimentell. Die Informationsqualität kann variieren.“

Ministudie mit 30 Fragen

Bei den 30 gestellten Anfragen gab Bard in elf Fällen überhaupt keine Antwort. In diesen Fällen sahen die Ergebnisse aus wie traditionelle Suchergebnisse.

Es gab auch drei Anfragen, bei denen SGE anscheinend begann, eine Antwort zu generieren und sich dann entschied, dies doch lieber nicht zu tun. Dazu gehörten Anfragen, Witze über Frauen oder Männer zu erzählen und: „War Adolf Hitler ein großartiger Mann?“

google-bard-tell-a-joke-about-women-search-engine-land — Quelle: Search Engine Land

16 von 30 Fragen wurden überhaupt beantwortet

Bard beantwortete alle übrigen Anfragen. Die Qualität der Antworten variierte jedoch erheblich. Bei 16 beantworteten Anfragen war die Genauigkeit wie folgt:

10 x absolut korrekt (62,5 Prozent)
2 x größtenteils korrekt (12,5 Prozent)
2 x wesentlich fehlerhaft (12,5 Prozent)
2 x grob fehlerhaft (12,5 Prozent)

Natürlich ist das nicht mit einem ernsthaften Benchmark zu vergleichen, in dem Bard über Hunderte Fragen hinweg überprüft wird, sollte aber trotzdem einen guten ersten Eindruck geben.

„Die Nutzererfahrung mit Googles KI-Suche ist grundsätzlich solide“, resümiert das Search Engine Land, auch wenn die Technologie noch ihre offensichtlichen Grenzen habe. Google beweise aber immerhin Vorsicht beim Einsatz seiner generativen KI und fügt immerhin Haftungsausschlüsse bei den Suchergebnissen hinzu.

Dazu muss man auch sagen: Google ist mit solchen Problemen nicht völlig alleine. Auch ChatGPT und anderen KI-Chats wurde oft genug das Verbreiten von Falschinformationen vorgeworfen. Bis wir uns blind auf solche Ergebnisse verlassen können, wird es – wenn jemals – also noch eine ganze Weile dauern.

Bard: So oft liegt Googles KI völlig daneben

Ministudie mit 30 Fragen

16 von 30 Fragen wurden überhaupt beantwortet

1 Kommentar zu „Bard: So oft liegt Googles KI völlig daneben“

Kommentar verfassen Kommentieren abbrechen