YouTube verbessert endlich das bislang schlimmste Feature massiv

YouTube Premium Hero

Google führte vor einiger Zeit die automatische Synchronisierung fremdsprachiger Inhalte ein, aber hat sich damit kaum Freunde gemacht. Nun soll ein großes Upgrade einige Verbesserungen mitbringen, damit das sogenannte Auto-Dubbing endlich die richtige Qualität bietet.

Bislang hat die Synchronisation (Audiotrack), die komplett automatisch läuft, oftmals versagt. Die hörbaren Übersetzungen klangen extrem mechanisch, absolut gar nicht fließend und synchron mit den Leuten in den Videos. Manchmal hatte sich sogar Frauenstimmen, obwohl im Video eindeutig Männer mit tiefer Stimme zu sehen waren.

YouTube Audiotrack Screenshot

Nun öffnet YouTube seine KI-gestützten Funktionen für die automatische Synchronisierung. Damit geht außerdem einher, dass nun 27 statt nur neun Sprachen unterstützt werden. „Expressive Speech“ sei das notwendige Upgrade, damit die künstliche Stimme sehr viel natürlich klingt. Das System übersetzt nicht mehr nur Wort für Wort, sondern übernimmt Tonfall, Emotionen und die Energie des Originalsprechers.

Expressive Speech ist zum Start in acht Sprachen verfügbar, darunter Deutsch, Englisch, Französisch, Hindi, Indonesisch, Italienisch, Portugiesisch und Spanisch.

Tonfall und Emotionen sind jetzt hörbar

Dazu wird es außerdem eine Lippen-Synchronisierung geben, die man schon aus normalen Filmen kennt. Im besten Fall ist kaum zu erkennen, dass der Schauspieler oder Creator eigentlich eine andere Sprache spricht. Die neue Lip-Sync-Funktion befindet sich derzeit in der Testphase. Hier werden Mundbewegungen optisch an die Tonspur angepasst.

Die automatische Synchronisierung soll laut Google den Nerv der Zeit treffen, denn somit kann man noch sehr viel einfacher Inhalte mit fremden Sprachen konsumieren. Es macht mehr Spaß als Untertitel mitzulesen. Zuletzt sahen täglich ca. sechs Millionen Nutzer mindestens zehn Minuten synchronisierte Inhalte an, die Tendenz dürfte nach oben zeigen.

Google reagiert mit den Neuerungen auf die Kritik der Nutzer, die oftmals so klang: „Die automatische Synchronisation hat meine Frustration mit der Plattform enorm gesteigert. Die gesprochene Wiedergabe gibt Tonfall, Emotionen und Rhythmus des Originaltons nur unzureichend wieder und verschlechtert die Hintergrundgeräuschqualität erheblich.“

Hier gibt es ein Beispiel

Das offizielle Release-Video der Neuerungen klingt für mich bereits nach „Expressive Speech“, die übersetzten Stimmen sind an Mimik und Sprechgeschwindigkeit der beiden Sprecher angepasst. Da sehen wir, dass die Lippen-Synchronisiation noch fehlt und auch dringend notwendig ist.

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Kommentar verfassen

Bleibt bitte nett zueinander!