TechTäglich:
Microsoft: So erschreckend sind die neuen KI-Stimmen

Eine dreisekündige Sprachprobe genügt – und eine neue künstliche Intelligenz von Microsoft ahmt praktisch jede Stimme glaubwürdig nach. So könnten sich Podcasts einsprechen lassen, ohne dass der Autor ans Mikrofon muss.

Text: Jörg Heinrich

10. Januar 2023

Stimmt was nicht mit der Stimme? Diese Frage wirft Microsofts neue KI auf.
Foto: Pixabay/0fjd125gk87

Microsoft: So erschreckend sind die neuen KI-Stimmen

Spricht da in einer Rede tatsächlich Olaf Scholz – oder imitiert künstliche Intelligenz (KI) die Stimme des Kanzlers beinahe perfekt? Diese Frage wird künftig drängender denn je. Denn Microsoft hat ein neues KI-Modell namens "VALL-E" vorgestellt, das nach Angaben des US-Konzerns mit einer nur dreisekündigen Sprachprobe jede Stimme glaubwürdig nachahmen kann. Dabei sollen sich auch Emotionen und typischer Tonfall eines Menschen überzeugend imitieren lassen. Auf einer Demo-Seite bietet Microsoft zahlreiche Beispiele zum Nachhören an, deren Ähnlichkeit zwischen Original und "Fälschung" tatsächlich gespenstisch bis erschreckend wirkt.

Twitter

Viele ethische Fragen bleiben

Die Entwickler wollen "VALL-E" beispielsweise dazu verwenden, um aus schriftlichen Texten gesprochene Inhalte mit der Originalstimme des Autors zu erzeugen. So könnten sich beispielsweise Podcasts einsprechen lassen, ohne dass die Autorin oder der Autor überhaupt ans Mikrofon muss. In einem anderen Szenario ließen sich Fehler in Reden oder in Videos nachträglich korrigieren. Microsoft hat die KI mit 60.000 Stunden Sprachbeispielen von über 7.000 Sprecherinnen und Sprechern trainiert, so ArsTechnica.

Drei Sekunden Sprachsample – und jede Stimme lässt sich glaubwürdig imitieren.

Foto: Microsoft

Maßnahmen gegen Missbrauch

Um Missbrauch zu vermeiden, hat Microsoft den Quellcode von "VALL-E" bisher nicht veröffentlicht. Und die Frage, inwieweit man einer Stimme künftig noch vertrauen kann, muss dringend geklärt werden. Das räumt auch Microsoft in einem "ethischen Statement" ein: "Die Experimente in dieser Arbeit wurden unter der Annahme durchgeführt, dass der Benutzer des Modells der Zielsprecher ist und vom Sprecher genehmigt wurde." Falls das nicht der Fall ist, müsse die Software Funktionen erhalten, die Missbrauch erschweren oder ganz verhindern.

Das sind die Themen von TechTäglich am 10. Januar 2023:

Die Cookiekalypse hält die Branche in Atem. Besser, man hat eine gute First-Party-Data-Strategie. Wie man die entwickelt, lernst du im W&V Executive Briefing.

Kennst du eigentlich schon unser KI-Update? Einmal pro Woche die wichtigsten Veränderungen zu KI im Marketing. Einordnung, Strategie, News, direkt in dein Postfach.

Wie funktioniert eigentlich Tiktok? Einen schnellen und umfassenden Überblick gibt dir die aktuelle Ausgabe des W&V Executive Briefing zum Thema Tiktok.

25.07.2025 | MEWA Textil-Service SE & CO. Management OHG | Wiesbaden Projektmanager (m/w/d) Marketing Services

24.07.2025 | Köhler Kommunikation GmbH | Düsseldorf Art Director:in (m/w/d)

18.07.2025 | Stadtwerke Lemgo GmbH | Lemgo Mitarbeiter*in für Marketing und Kommunikation (m/w/d) im Rahmen einer Elternzeitvertretung voraussichtlich bis zum 15.12.2026

18.07.2025 | OBO Bettermann Holding GmbH & Co. KG | Menden Product Owner (m/w/d)

18.07.2025 | Menicon GmbH | Offenbach am Main Mediengestalter Digital & Print (m/w/d)

Microsoft: So erschreckend sind die neuen KI-Stimmen

Viele ethische Fragen bleiben

Maßnahmen gegen Missbrauch

$h2