KI im Radio: Die Sprechmaschinen

Neue Technologien könnten zunehmend echte Moderatoren im Radiostudio ersetzen. Während ein Teil der Branche begeistert experimentiert, warnen andere vor Hörertäuschung. 

Text: Inge Seibel

Erschienen in medium magazin #02/23.

John Ment ist Hamburgs vermutlich bekannteste Stimme. Doch der Radio-Hamburg–Moderator hat neue Konkurrenz bekommen. Seit ein paar Monaten weckt auch die Moderatorin, Entertainerin, Schauspielerin und Sängerin Barbara Schöneberger die Hansestadt im Radio auf. Barba Radio Hamburg auf DAB+ ist der neueste Ableger einer 2018 gegründeten Audioplattform rund um das bekannte Multimediatalent und gehört zu Regiocast, einem deutschlandweit agierenden Radiounternehmen. Das Versprechen an die Hansestädter: „Barbara sorgt in der werktäglichen Morningshow von 6.00 bis 10.00 Uhr persönlich für Musik und gute Laune.“ 

Da aber auch für Schöneberger der Tag nur 24 Stunden hat, liegt die Frage auf der Hand: Kann die vielbeschäftigte Entertainerin es tatsächlich schaffen, jeden Morgen früh aufzustehen und persönlich Stunden am Mischpult zu stehen? „Kann sie nicht!“, heißt es bei der Regiocast: „Barbara Schöneberger hat nur wenige Stunden pro Woche Zeit für die Content-Produktion, ihr Co-Moderator sitzt in einer anderen Stadt – genauso wie ein Teil des Redaktionsteams.“ 

Heißt also: Schöneberger produziert auf „Vorrat“. Dass ihre Moderation trotz „Voice-tracking“ – also -vorproduzierter Moderationsbeiträge – meist so gut wie live klingt, ist auch einem neuartigen Content-Automations-System namens -resc.audio geschuldet. Die Software kombiniert mit Hilfe intelligenter Algorithmen tagesaktuelle Moderationen automatisch mit Archivmaterial wie -Titel-An- und Absagen, den entsprechenden Verpackungselementen und Musikbetten. 

Technisch ist das beeindruckend – und auch aus Sicht der Sender sprechen mehrere Gründe dafür: Es spart Zeit und Geld, Moderationsfehler können zudem schnell ausgebessert werden. Doch Voice-tracking stößt auch auf Kritik: Denn falsch eingesetzt, kann die aufgezeichnete Moderation zum Problem werden. Zum einen, weil Stationen in aller Welt es immer wieder versäumen, in unerwarteten Katastrophensituationen die Automation rechtzeitig abzuschalten. Zum anderen, weil Hörer sich getäuscht fühlen können. Ihnen wird suggeriert, Moderator oder Moderatorin seien gerade live im Studio – so, wie man es eben vom Radio seit nunmehr genau hundert Jahren erwartet und gewohnt ist. Die Technik erzeuge „Radio aus der Konserve“, heißt es.


Dieser Beitrag stammt aus Ausgabe 02/23. Ebenfalls im Heft: Eine Recherche zu Funke-Chefin Julia Becker, ein Praxis-Special zu KI-Tools für Medienprofis, das Dossier „Macht“ sowie ganz viel Nutzwert für die journalistische Berufspraxis. Digital oder als Printausgabe hier erhältlich oder im ikiosk

 

 

 


Dosenkost statt frischer Live-Ware?

„Voicetracking ist überhaupt nichts Neues im Radio“, sagt dagegen der erfahrene Radiomoderator Conny Ferrin. Schon in den 60er-Jahren seien in Amerika beliebte Radio-Promis auf Tonbändern aufgezeichnet und von Technikern ins laufende Programm eingespielt worden. Aufgrund der Coronapandemie habe das Voicetracking nun auch in Deutschland zugenommen. Ferrin produziert mit seiner Firma Radiotrax seit über 20 Jahren auch Voicetrack-Shows für die unterschiedlichsten Sender, vom Inselradio Mallorca bis zum Lokalradio baden.fm. Je nachdem, welches Voice-tracking-Verfahren angewendet wird, fühlt er sich dabei oft wie in einer echten Live-Situation. „Entsprechend perfekt klingt das Ergebnis“, sagt Ferrin. Selbst der Profi könne es nicht mehr von einem Liveprogramm unterscheiden. 

Genau das aber bringt Kritiker des Verfahrens wie die Initiative Fair Radio auf die Palme. Gegen Aufzeichnungen hat man nichts, solange es transparent kommuniziert wird. „Wenn der Hörer Wind davon bekommt, dass ihm frisches Live-Radio verkauft wird, es aber doch nur Dosenkost ist, stellen wir Radiomacher unsere Glaubwürdigkeit selbst ins Abseits“, sagt Sandra Müller, Mitinitiatorin der Ini-tiative.

Eine ungewöhnliche Mitarbeiterin 

Doch Voicetracking in der bisherigen Form könnte möglicherweise ohnehin bald Vergangenheit sein. KI-Modelle wie Microsofts Vall-E imitieren echte Stimmen innerhalb von wenigen Sekunden. Den Beweis dafür, dass künstliche Intelligenz bereits in der Lage ist, menschliche Stimmen mittels Sprachsynthese so lebensecht und natürlich klingend nachzubilden, dass sie kaum noch vom Original zu unterscheiden sind, haben RTL und Microsoft im vergangenen Jahr angetreten. In einem durch die Landesanstalt für Medien NRW geförderten Pilotprojekt wurden die Stimmen von RTL-Moderator Maik Meuser und Audioredakteurin Inken Wriedt nahezu perfekt geklont und mehrere Wochen auf den Onlineplattformen von RTL und ntv eingesetzt. Auch in den Zukunftslabs der öffentlich-rechtlichen Hörfunkprogramme wird ausgiebig mit Stimmsimulatoren experimentiert. 

Verwaistes Studio: In den Randzeiten übernimmt bei ­baden.fm das Text-to-Speech-Programm „Eva“ die halbstündlichen Informationen zu Wetter und Verkehr. (Foto: baden.fm)

Kleinere Radiostationen wie das Lokalradio baden.fm aus Freiburg tun sich zumindest finanziell wesentlich schwerer, mit diesen Entwicklungen mithalten zu können. Und doch will baden.fm-Geschäftsführer Christian Noll bei der Zukunft des Radios vorne mit dabei sein. Baden.fm hat seit einem knappen Jahr eine neue „Mitarbeiterin“. In den Tagesrand- und Nachtzeiten des Programms, wenn kein Moderator mehr im Studio steht, übernimmt das Text-to-Speech-System „Eva“ die halbstündlichen Informationen zu Wetter und Verkehr. Mit Hilfe der Software werden Wetterdaten des Deutschen Wetterdienstes, die Meldungen von Polizei und ADAC, inklusive Ad-hoc-Warnmeldungen und Falschfahrer, in Sprechtexte umgewandelt und von einer künstlichen Stimme präsentiert. 

„Eva“ wurde von baden.fm zusammen mit der Digitalagentur Konsole Labs aus Berlin entwickelt. Dahinter steht als Mitbegründer und Geschäftsführer der erfahrene Radiomacher Maximilian Knop, der vor der Gründung der Agentur mehrere Stationen bei Radio Fritz und dem ORB-Fernsehen durchlief. „Wir konzentrieren uns bei diesem aktuellen Projekt auf kleinere und mittelgroße Stationen und begleiten sie bei jedem Schritt“, sagt Knop, der weiß, dass sich Lokalradios keine großen Entwicklungslabore leisten können. 

Seit dem „Engagement“ von „Eva“ ist Christian Noll unter Radiomanagern ein gefragter Mann, der oft nicht die Skepsis versteht, mit der ihm manche Kollegen begegnen: „Viele glauben, wir wollen Personal einsparen. Doch finden Sie heutzutage erst mal Nachwuchs, der sich in den Nachtstunden ans Mischpult setzt. ‚Eva‘ bringt einen Service-Mehrwert für die Zuhörer, den wir zuvor nach 18 Uhr nicht mehr hatten.“ Ums Sparen sei es daher nicht gegangen: „Wir haben Entwicklungskosten, wir haben laufende Kosten“, sagt Noll, „und die Stimme und das System, das dahintersteckt, sind schließlich auch nicht umsonst.“ Und wie reagieren die Hörer auf die künstliche Stimme? „Sie sind längst sozialisiert durch Siri und Alexa“, meint Noll, der Wert auf Transparenz legt. „Die Hörer sollen wissen, dass hier KI im Einsatz ist. Wir kündigen das jedes Mal an mit: ‚Neues vom baden.fm-Servicesystem Eva.“

Drängende Fragen der Ethik

Der nächste Schritt, das glaubt auch Noll, ist die Synthetisierung der Stimmen eigener Programmmitarbeiter. Was genau man damit anstellt, ist noch offen. Wichtige Punkte sind noch zu klären. Wie soll man die Stimmen der Mitarbeiter in Zukunft entlohnen? Wo dürfen sie eingesetzt werden? Welche ethischen Leitlinien sind zu beachten? Für das Synthetisieren von menschlichen Stimmen müssen strenge Regeln gelten, das ist klar. Nicht jedem dürfte dabei wohl sein, dass seine Stimme möglicherweise auch missbraucht werden könnte. Selbst „RTL Deutschland“-Moderator Maik Meuser konnte seine Skepsis nach dem Experiment mit Microsoft nicht verbergen: „Etwas zu hören, was ich selbst nie gesagt habe, mit meiner Stimme – das fühlt sich nicht besonders gut an.“