Eigentlich beherrscht der US-Tech-Blogger und Spielprogrammierer Jon Finger die deutsche Sprache nicht. Doch in einem von ihm auf X (ehemals Twitter) veröffentlichten Video spricht er akzent- und fast fehlerfrei: „Angeblich ist dies ein Vokalübersetzer, der per Drag-and-drop funktioniert. Ich brauche das also nur fallen lassen …“ – und erst die Übersetzung des Wortes „drop“ als „fallen lassen“ entlarvt den Computer. Denn es ist gar nicht Finger, der spricht, sondern eine perfekte digitale Kopie seiner Stimme, die in einer für ihn fremden Sprache einen zuvor englisch eingesprochenen Text wiedergibt.
Grundlage ist ein Übersetzungsprogramm auf Basis künstlicher Intelligenz (KI) des Start-ups HeyGen. Die Software passt nicht nur die Stimme an, sondern auch gleich das ganze Gesicht von Finger. Der Video-Algorithmus manipuliert das Bild des Tech-Bloggers so perfekt, dass die Lippenbewegungen exakt zu den deutschen Worten passen.
Die Software beherrscht nicht nur Deutsch, sondern auch Französisch oder Spanisch. Sie könnte künftig die Arbeit von Übersetzungsstudios und Synchronsprechern weltweit übernehmen. Einziger Haken: Noch funktioniert die Übersetzung nicht in Echtzeit.
Nutzer müssen erst Videos aufnehmen und hochladen, anschließend können sie die übersetzten Versionen auf der Seite von HeyGen herunterladen. Doch das scheint angesichts des raschen technischen Fortschritts nur eine Frage von Zeit und verfügbarer Rechenleistung zu sein.
Digitale Avatare, unabhängig von ihren menschlichen Vorbildern
Finger zeigt sich begeistert, ebenso seine Zuschauer. Das Fazit der Kommentare lautet: Der HeyGen-Übersetzer könnte es YouTubern und Independent-Filmemachern extrem vereinfachen, neue Zielgruppen weltweit zu erreichen. Zudem könnten sie künftig Inhalte einfach erstellen, ohne überhaupt selbst vor der Kamera zu sitzen.
Denn genau dafür wirbt HeyGen: Hat die Software erst einmal einen Menschen anhand einer Vorlage kennengelernt, kann sie ihn anschließend jeden beliebigen Text in jeder Sprache sprechen lassen – die digitalen Avatare werden also unabhängig von ihren menschlichen Vorbildern.
Influencer könnten so ihre Arbeitsleistung vervielfachen, da sie Texte nicht mehr selbst einsprechen müssen. Firmen könnten Werbebotschaften individualisieren, etwa Kunden mittels digitalisierter Prominenten-Avatare personalisiert ansprechen. Die Algorithmen heben die Verbindung von Sprecher und Gesprochenem auf.
Die Demo wirft das Licht auf eine Branche, die vom Boom der künstlichen Intelligenz betroffen ist wie keine andere: Übersetzungsarbeit wird aktuell immer öfter von Software übernommen, die schneller und flexibler arbeiten kann als menschliche Übersetzer.
Eine letzte Grenze ist die Simultan-Übersetzung – noch. Internetgigant Google hatte bereits auf seiner Entwicklerkonferenz „I/O“ im Mai ein Programm namens „Universal Translator“ gezeigt, dass lippensynchron live übersetzen kann und dabei die Stimmlage des Sprechers perfekt nachahmt.
Doch James Manyika, Leiter der Google-Ethik-Abteilung „Technologie und Gesellschaft“ benannte bereits im Mai das eigentliche Problem hinter der Kombination von Audio- und Videoalgorithmen: Natürlich könnte ein Nutzer auch ein Video eines Politikers in die Maschine laden, und dann den Text vorgeben, den das System erzeugen soll. Anstatt als Übersetzer würde die Software dann als perfektes Propaganda-Werkzeug arbeiten, mit passenden Fälschungen könnten Populisten in sozialen Netzwerken für Aufruhr sorgen.
Auch deswegen hatte Manyika bei der Vorstellung davor gewarnt, KI-Werkzeuge wie den „Universal Translator“ einfach online zur Verfügung zu stellen. Man müsse zwischen „Mut und Sicherheit“ abwägen. Google stellt seinen Translator deswegen aktuell nur ausgewählten Firmenkunden zur Verfügung.
Dass die simultane, zeitgleiche Übersetzung grundsätzlich möglich ist, beweisen aktuell diverse andere Konzerne und KI-Start-ups mit eigenen Übersetzungsprogrammen. Doch damit die Übersetzung synchron funktioniert und die Rechenleistung mobiler Geräte nicht überfordert, verzichten diese Programme auf die Video-Manipulation und geben nur passendes Audio oder Text aus. Prominente Beispiele sind der Microsoft Translator sowie die Live-Übersetzung auf Googles Pixel-Telefonen.