Anzeige

TechTäglich
Microsoft: So erschreckend sind die neuen KI-Stimmen

Eine dreisekündige Sprachprobe genügt – und eine neue künstliche Intelligenz von Microsoft ahmt praktisch jede Stimme glaubwürdig nach. So könnten sich Podcasts einsprechen lassen, ohne dass der Autor ans Mikrofon muss.

Text: W&V Redaktion

10. Januar 2023

Stimmt was nicht mit der Stimme? Diese Frage wirft Microsofts neue KI auf.
Anzeige

Microsoft: So erschreckend sind die neuen KI-Stimmen

Spricht da in einer Rede tatsächlich Olaf Scholz – oder imitiert künstliche Intelligenz (KI) die Stimme des Kanzlers beinahe perfekt? Diese Frage wird künftig drängender denn je. Denn Microsoft hat ein neues KI-Modell namens "VALL-E" vorgestellt, das nach Angaben des US-Konzerns mit einer nur dreisekündigen Sprachprobe jede Stimme glaubwürdig nachahmen kann. Dabei sollen sich auch Emotionen und typischer Tonfall eines Menschen überzeugend imitieren lassen. Auf einer Demo-Seite bietet Microsoft zahlreiche Beispiele zum Nachhören an, deren Ähnlichkeit zwischen Original und "Fälschung" tatsächlich gespenstisch bis erschreckend wirkt.

Dieser Inhalt kann leider nicht dargestellt werden. Sie finden ihn hier.

Viele ethische Fragen bleiben

Die Entwickler wollen "VALL-E" beispielsweise dazu verwenden, um aus schriftlichen Texten gesprochene Inhalte mit der Originalstimme des Autors zu erzeugen. So könnten sich beispielsweise Podcasts einsprechen lassen, ohne dass die Autorin oder der Autor überhaupt ans Mikrofon muss. In einem anderen Szenario ließen sich Fehler in Reden oder in Videos nachträglich korrigieren. Microsoft hat die KI mit 60.000 Stunden Sprachbeispielen von über 7.000 Sprecherinnen und Sprechern trainiert, so ArsTechnica.

Drei Sekunden Sprachsample – und jede Stimme lässt sich glaubwürdig imitieren.

Maßnahmen gegen Missbrauch

Um Missbrauch zu vermeiden, hat Microsoft den Quellcode von "VALL-E" bisher nicht veröffentlicht. Und die Frage, inwieweit man einer Stimme künftig noch vertrauen kann, muss dringend geklärt werden. Das räumt auch Microsoft in einem "ethischen Statement" ein: "Die Experimente in dieser Arbeit wurden unter der Annahme durchgeführt, dass der Benutzer des Modells der Zielsprecher ist und vom Sprecher genehmigt wurde." Falls das nicht der Fall ist, müsse die Software Funktionen erhalten, die Missbrauch erschweren oder ganz verhindern.

Das sind die Themen von TechTäglich am 10. Januar 2023:


Autor: Jörg Heinrich

Jörg Heinrich ist Autor bei W&V. Der freie Journalist aus München betreut unter anderem die Morgen-Kolumne „TechTäglich“. Er hat die Hoffnung noch nicht aufgegeben, dass Internet und Social Media künftig funktionieren, ohne die Nutzer auszuhorchen. Zur Entspannung fährt er französische Oldtimer und schaut alte Folgen der ZDF-Hitparade mit Dieter Thomas Heck.

Anzeige