Von Susanne Lang am 13.04.2022

Kategorien: Aktuelles, Audio, Finanzierung, Journalismus Lab, Projekte

Tags: Audio Innovation, Audioförderung, Journalismus-Lab, Nachrichten, RTL, synthetische Stimmen, synthetische Stimmenwelt

„Die Stimmen klingen zu 95 Prozent wie ihr Original“

RTL Deutschland vergrößert mit Hilfe von synthetischen Stimmen das Audioangebot auf den Newsportalen ntv.de und rtl.de. Das Besondere dabei: Die Stimmen klingen wie bekannte Moderator*innen der Sender. Isabella Thissen, Senior Vice President Editorial Products & Innovation, und Tatjana Anisimov, Product Innovation Managerin bei RTL Deutschland, stellen das Konzept vor.

Was machen die künstlichen Stimmen von RTL Deutschland anders als Siri und co?

Isabella Thissen: Die bislang existierenden Vorlesefunktionen sind nicht speziell auf den Publishing-Bereich trainiert. Sie klingen eher unpersönlich und lesen abgehakter vor. Viele Menschen hält das davon ab, diese Funktion zu benutzen. Uns war wichtig, den Nutzer*innen vertraute Stimmen aus unserem Programm anzubieten und dadurch ein Vorleseerlebnis zu ermöglichen, wie sie es aus Radio oder Fernsehen gewohnt sind

Tatjana Anisimov: Unsere Stimmen kommen vorerst nur im journalistischen Kontext, für Nachrichten, zum Einsatz. Wir haben sie ausschließlich mit journalistischem Audiomaterial trainiert. Um eine größtmögliche Nähe zu unserem Programm zu schaffen, haben wir als Stimmgebende zwei Sprecher*innen aus dem RTL-Kosmos gewählt: Nachrichtensprecher Maik Meuser von RTL aktuell sowie die Podcastredakteurin und Radiosprecherin Inken Wriedt von der Produktionsfirma Audio Alliance.

Wie werden deren Stimmen künstlich nachgebaut?

Anisimov: Die KI-Stimme von Maik Meuser haben wir mit einer Auswahl seiner Anmoderationen trainiert. Mehrere Stunden Audiomaterial wurden transkribiert, damit die Stimme die Wörter auch richtig zuordnen kann. Über dieses Material hat die Stimme gelernt, in welchem Duktus und mit welchen Betonungen Maik Meuser Moderationstexte spricht. Das überträgt sie nun auf neue Nachrichtentexte, die er selbst noch nie gesprochen hat.

Hört man keinen Unterschied zwischen der echten und der künstlichen Stimme?

Thissen: Die Stimmen sind mittlerweile zu 95 Prozent deckungsgleich. Das Ergebnis ist erstaunlich gut. Selbstverständlich gibt es noch einige Wörter, die die Stimmen noch nicht perfekt aussprechen können. Manches muss immer wieder nachtrainiert werden, Eigenworte zum Beispiel oder englische Abkürzungen.

Anisimov: Vor allem die männliche Stimme kann Nachrichten sehr gut vorlesen. Wenn wir sie einen Witz erzählen ließen, würde das anders klingen. Darauf ist sie nicht trainiert. Inken Wriedt hat hingegen sehr viele Kindermärchen und Krimis eingelesen. Ihre künstliche Stimme ist dementsprechend gut darin, Geschichten vorzulesen. Beide Moderator*innen haben jedoch die Sätze, die ihre künstlichen Doubles vorlesen, jedoch nie im Wortlaut eingesprochen.

Das heißt, man könnte ihnen ziemlich viel in den Mund legen?

Thissen: Wir arbeiten bei diesem Projekt mit Microsoft als Partner unter strengen Regularien zusammen. Wir haben vertraglich festgelegt, dass wir die Stimmen ausschließlich für diesen journalistischen, auf Fakten basierten Zweck verwenden. In falschen, unautorisierten Händen könnte die Technik missbraucht werden. Wir haben vollumfänglich dafür Sorge getragen, dass wir sie ethisch, moralisch und rechtlich einwandfrei einsetzen werden.

Wird die synthetische Stimme die Moderator*innen irgendwann ersetzen?

Thissen: Das kann ich ausschließen. Uns geht es vielmehr um eine Verlängerung der Stimmen. Die KI wird vor allem Aufgaben übernehmen, die unsere Moderator*innen entlasten, Vertonen zum Beispiel. Dabei geht es auch um eine gewisse Skalierfähigkeit. Gerade in den Randzeiten bei Radiosendern oder bei personalisierten On Demand-Angeboten wäre der Aufwand viel zu groß, echte Moderator*innen zu beschäftigen. Mit ihren KI-Stimmen können wir unseren Moderator*innen eine Chance bieten, im Markt noch stärker präsent zu sein, ohne dafür 24 Stunden am Tag einsprechen zu müssen.

Anisimov: Eine synthetische Stimme würde zudem keine komplette Radioshow moderieren. Da wo es auf Spontanität und Kreativität ankommt, stößt sie an ihre Grenzen. Ihr fehlt bislang immer noch das Menschliche, Schlagfertige, Emotionale.

Ab wann werden die künstlichen Stimmen auf den Webseiten im Einsatz sein?

Anisimov: Wir planen den Start bis Mitte April und führen seit März bereits erste vielversprechende Tests durch. Parallel dazu setzen wir einen manuellen Workflow für die redaktionelle Umsetzung auf. Dabei geht es unter anderem um die Frage, welche Artikel diesen Audio-Player erhalten und wie sich das Angebot automatisieren lässt.

Thissen: Zusätzlich zur singulären Vorlesefunktion planen wir in einer weiteren Projektstufe ein Feature, das bestimmte Texte in einer gewünschten Länge vorliest. Diese sogenannten Audio News Briefings sind auf individuelle Zeitspannen zugeschnitten. Interessant wird das beispielsweise beim Arbeitsweg. Nutzer*innen können einen Zeitrahmen angeben, und wir stellen mit Hilfe von künstlicher Intelligenz die Nachrichten so zusammen, dass die synthetische Stimme sie auf dem Weg zur Arbeit vorliest.

Was war bisher am schwierigsten umzusetzen?

Anisimov: Wir haben etwas unterschätzt, wie aufwändig das Training der Stimme ist. Man braucht zwar nicht viel Audiomaterial, um auf ein gutes Ergebnis zu kommen, aber man muss sehr viel Zeit in die Aufbereitung stecken.

Thissen: Die Herausforderung dabei ist, die synthetischen Stimmen auf ein Niveau zu bringen, dass man ihnen gerne zuhört. Dabei haben wir festgestellt, dass ein oder zwei Versprecher die Stimme sogar noch sympathischer machen, weil es dann nicht zu perfekt klingt.

Sind weitere künstliche Stimmen geplant?

Thissen: Momentan sind wir noch auf den News-Bereich fokussiert, aber perspektivisch wollen wir eine vielfältige Stimmenwelt aufbauen, für die unterschiedlichsten Anwendungszwecke bei RTL Deutschland. In unserem Portfolio befinden sich nicht nur journalistische Bereiche, sondern beispielweise auch Rezepte oder Kinderfernsehen, wo eine Vorlesefunktion relevant sein könnte. Nicht zuletzt gibt es bei Werbung im Audiobereich großes Verbesserungspotential. Für viele Unternehmen gibt es die Herausforderung, Audio zu monetarisieren. Ein spannender Usecase wäre zum Beispiel auch das Thema genderneutrale Stimme.

Damit würde die ganze Branche von der Stimmenwelt profitieren?

Anisimov: Wir verstehen uns als Vorreiter, wenn es darum geht, Nutzer*innen vertrauensvoll an diese Technik heranzuführen. Künstliche Stimmen werden in den kommenden Jahren immer bedeutender werden.

Thissen: Mit unseren digitalen Angeboten erreichen wir zusammen mit Gruner + Jahr weit über 40 Millionen Unique User in Deutschland im Monat. Damit haben wir eine große Chance, die Akzeptanz für künstliche Stimmen zu erhöhen. Mit dieser Reichweite kann man grundsätzlich den Markt für diese Technologie bereiten. Speziell beim Thema Werbung kann die gesamte Branche profitieren. Denn die Produktion der Stimmen wird damit deutlich effizienter.

Mehr Infos zum Projekt gibt es z.B. bei W&V oder bei RTL.

„Die Stimmen klingen zu 95 Prozent wie ihr Original“

Was machen die künstlichen Stimmen von RTL Deutschland anders als Siri und co?

Wie werden deren Stimmen künstlich nachgebaut?

Hört man keinen Unterschied zwischen der echten und der künstlichen Stimme?

Das heißt, man könnte ihnen ziemlich viel in den Mund legen?

Wird die synthetische Stimme die Moderator*innen irgendwann ersetzen?

Ab wann werden die künstlichen Stimmen auf den Webseiten im Einsatz sein?

Was war bisher am schwierigsten umzusetzen?

Sind weitere künstliche Stimmen geplant?

Damit würde die ganze Branche von der Stimmenwelt profitieren?

Könnte auch interessant sein:

Journalismus Lab fördert innovative Audioprojekte

„Wir wollen ein neues Hörerlebnis schaffen“

„Interaktion mit dem Publikum ist kein Selbstzweck“

Journalismus Lab Newsletter